摘要:隨著Internet的發(fā)展,Web數(shù)據(jù)挖掘有著越來越廣泛的應(yīng)用,Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web信息集合上的應(yīng)用。文章闡述了Web數(shù)據(jù)挖掘的定義、特點和分類,并對Web數(shù)據(jù)挖掘中使用的技術(shù)及應(yīng)用前景進(jìn)行了探討。
關(guān)鍵詞:數(shù)據(jù)挖掘;Web;路徑分析;電子商務(wù)
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-2374(2009)12-0047-02
近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。數(shù)據(jù)挖掘是面向發(fā)現(xiàn)的數(shù)據(jù)分析技術(shù),通過對大型的數(shù)據(jù)集進(jìn)行探查。可以發(fā)現(xiàn)有用的知識,從而為決策支持提供有力的依據(jù)。
一、概述
(一)數(shù)據(jù)挖掘的基本概念
數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。數(shù)據(jù)挖掘基于的數(shù)據(jù)庫類型主要有:關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、演繹數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、主動數(shù)據(jù)庫、空間數(shù)據(jù)庫、遺留數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、文本型、Internet信息庫以及新興的數(shù)據(jù)倉庫等。
(二)Web數(shù)據(jù)挖掘
Web上有少量的數(shù)據(jù)信息,相對傳統(tǒng)的數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)性很強,即其中的數(shù)據(jù)為完全結(jié)構(gòu)化的數(shù)據(jù)。Web上的數(shù)據(jù)最大特點就是半結(jié)構(gòu)化。所謂半結(jié)構(gòu)化是相對于完全結(jié)構(gòu)化的傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)而言。由于Web的開放性、動態(tài)性與異構(gòu)性等固有特點,要從這些分散的、異構(gòu)的、沒有統(tǒng)一管理的海量數(shù)據(jù)中快速、準(zhǔn)確地獲取信息也成為Web挖掘所要解決的一個難點,也使得用于Web的挖掘技術(shù)不能照搬用于數(shù)據(jù)庫的挖掘技術(shù)。
二、Web數(shù)據(jù)挖掘分類
(一)Web內(nèi)容挖掘
Web內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取有用信息的過程,Web內(nèi)容挖掘按實現(xiàn)方法分為兩大類:信息檢索(IR)方法和數(shù)據(jù)庫方法。且有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。
IR方法主要處理非結(jié)構(gòu)數(shù)據(jù)和Web中由HTML標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)。前者一般采用詞集方法,用一組組詞條來表示無結(jié)構(gòu)的文本,后者主要利用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù):如關(guān)聯(lián)規(guī)則、分類算法、演繹邏輯和規(guī)則學(xué)習(xí)等。
(二)Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是從Web組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。Web結(jié)構(gòu)挖掘的基本思想是將Web看作一個有向圖,他的頂點是Web頁面,頁面間的超鏈就是圖的邊。然后利用圖論對Web的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。常見的算法有HITS(Hy-pertext Induced Topic Search),PageRank,發(fā)現(xiàn)虛擬社區(qū)的算法、發(fā)現(xiàn)相似頁面的算法、發(fā)現(xiàn)地理位置的算法和頁面分類算法。Web結(jié)構(gòu)挖掘的算法一般可分為查詢相關(guān)算法和查詢無關(guān)算法兩類。查詢相關(guān)算法需要為每一個查詢進(jìn)行一次超鏈分析從而進(jìn)行一次值的指派;而查詢獨立算法則為每個文檔僅進(jìn)行一次值的指派,對所有的查詢都使用此值。HITS和PageRank分別是查詢相關(guān)算法和查詢獨立算法的代表。
(三)Web訪問挖掘
Web訪問挖掘是從服務(wù)器端記錄的用戶訪問日志或從用戶的瀏覽信息中抽取感興趣的模式,通過分析這些數(shù)據(jù)可以幫助理解用戶隱藏在數(shù)據(jù)中的行為模式,做出預(yù)測性分析,從而改進(jìn)站點的結(jié)構(gòu)或為用戶提供個性化的服務(wù)。
Web訪問挖掘一般分為兩種:一般訪問模式跟蹤和定制使用跟蹤。一般訪問模式跟蹤通過分析Web日志來理解用戶的訪問模式和傾向;定制使用跟蹤分析單個用戶的偏好,根據(jù)其訪問模式為每個用戶定制符合其個人特色的Web站點。Web的log數(shù)據(jù)包括:scnrer log,proxy serverlog,client端的cookie log等。Web使用記錄挖掘通常需要經(jīng)過三個階段:數(shù)據(jù)預(yù)處理階段(主要包括數(shù)據(jù)清洗和事物識別兩個部分);模式識別階段(采用統(tǒng)計法、機器學(xué)習(xí)等成熟技術(shù),從Web使用記錄中挖掘知識);模式分析階段(采用合適的成熟的技術(shù)和工具進(jìn)行模式的分析,從而輔助分析人員理解,使采用各種工具挖掘出的模式得到很好利用)。
三、Web數(shù)據(jù)挖掘中的關(guān)鍵技術(shù)
Web數(shù)據(jù)挖掘中常用的技術(shù)有Web使用的特有的路徑分析技術(shù),數(shù)據(jù)挖掘領(lǐng)域常用的關(guān)聯(lián)規(guī)則、序列模式、分類聚類技術(shù)等。
(一)路徑分析技術(shù)
用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時,最常用的是圖,因為Web可以用一個有向圖來表示,G=(V,E),V是頁面的集合,E是頁面之間的超連接集合,頁面定義為圖中的頂點,而頁面之間的超連接定義為圖中的有向邊。頂點V的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網(wǎng)站結(jié)構(gòu)圖,從圖中確定最頻繁的訪問路徑。
(二)關(guān)聯(lián)規(guī)則挖掘技術(shù)
關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶在一個訪問期間(SESSION),從服務(wù)器上訪問的頁面/文件之間的聯(lián)系,這些頁面之間可能并不存在直接的參引(RIFERENCE)關(guān)系。最常用的是用APRIOR算法,從事務(wù)數(shù)據(jù)庫中挖掘出最大頻繁訪問項集,這個項集就是關(guān)聯(lián)規(guī)則挖掘出來的用戶訪問模式。
(三)序列模式挖掘技術(shù)
序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時間序列關(guān)系的模式,它與關(guān)聯(lián)挖掘技術(shù)都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關(guān)聯(lián)挖掘技術(shù)更注重事務(wù)內(nèi)的關(guān)系,序列模式技術(shù)則注重事務(wù)間的關(guān)系。
四、Web數(shù)據(jù)挖掘的應(yīng)用
隨著中國經(jīng)濟(jì)的高速發(fā)展,數(shù)據(jù)挖掘?qū)⒃谥袊纬梢粋€產(chǎn)業(yè),目前Web數(shù)據(jù)挖掘已廣泛應(yīng)用于金融業(yè)、遠(yuǎn)程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)以及體育事業(yè)中,基于Web的數(shù)據(jù)挖掘技術(shù)已經(jīng)成為一個熱點,下面主要介紹Web數(shù)據(jù)挖掘的三個應(yīng)用前景:
(一)在電子商務(wù)中的應(yīng)用
在電子商務(wù)中,運用Web挖掘技術(shù)從服務(wù)器和瀏覽器端日志記錄中自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,對此進(jìn)行分析加工,通過對客戶進(jìn)行分類和聚類,從中可得到商家用于向特定消費群體或個體進(jìn)行定向營銷的決策信息。了解系統(tǒng)的訪問模式以及用戶的行為模式,從而做出預(yù)測性分析。同時有效地對這些Web日志進(jìn)行定量分析,提示其中的關(guān)聯(lián)關(guān)系、時序關(guān)系、頁面類屬關(guān)系、客戶類屬關(guān)系和頻繁訪問路徑、頻繁訪問頁面等,從而為企業(yè)更有效地確認(rèn)目標(biāo)市場、改進(jìn)決策獲得更大的競爭優(yōu)勢提供幫助。
(二)在搜索引擎中的應(yīng)用
利用Web數(shù)據(jù)挖掘技術(shù),通過對網(wǎng)頁內(nèi)容的挖掘,可實現(xiàn)對網(wǎng)頁的聚類和分類,實現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;運用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果;通過對用戶所使用的提問式的歷史記錄的分析,可以有效地進(jìn)行提問擴展,提高用戶的檢索效率。
(三)在網(wǎng)站設(shè)計中的應(yīng)用
在網(wǎng)站建設(shè)中,使用Web挖掘通過對網(wǎng)站內(nèi)容的挖掘,可有效地組織網(wǎng)站信息,例如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織;分析用戶的Web訪問行為,可為用戶提供智能化、個性化服務(wù)。比如,可根據(jù)客戶的訪問興趣、訪問頻度、訪問時間動態(tài)地調(diào)整頁面結(jié)構(gòu),迎合每個客戶的瀏覽興趣,使客戶在瀏覽時感覺自己是網(wǎng)站的惟一客戶;另外,網(wǎng)站還可以根據(jù)實際用戶的瀏覽情況,挖掘用戶的興趣點,定期為用戶推送相關(guān)信息,以及調(diào)整網(wǎng)站中網(wǎng)頁的鏈接結(jié)構(gòu)和內(nèi)容,為用戶提供個人的定制服務(wù)。
五、結(jié)語
本文就Web數(shù)據(jù)挖掘技術(shù)及應(yīng)用進(jìn)行了分析,Web挖掘的應(yīng)用研究是當(dāng)前數(shù)據(jù)挖掘的研究熱點。隨著電子商務(wù)的迅速普及,網(wǎng)絡(luò)資源的廣泛利用,如何進(jìn)一步開發(fā)Web數(shù)據(jù)挖掘,使用Web挖掘技術(shù)進(jìn)行更深層次的應(yīng)用是目前研究的重點。
參考文獻(xiàn)
[1]王國榮Active.Server.Pages&數(shù)據(jù)庫[M]人民郵電出版社,2000
[2]謝欣,王韜,一種支持動態(tài)網(wǎng)站生成的模型與系統(tǒng)[J]計算機應(yīng)用研究,2004
[3]王濤,陳懷義,基于WEB的遠(yuǎn)程教學(xué)平臺的設(shè)計與實現(xiàn)Ⅲ計算機應(yīng)用研究,2003
[4]甘早斌,陳傳波,裴先登,基于web的軟件需求管理系統(tǒng)研究[J]計算機應(yīng)用研究,2003
作者簡介:鄧雪峰,湖南常德人,供職于湖南城建職業(yè)技術(shù)學(xué)院,研究方向:計算機網(wǎng)絡(luò)的應(yīng)用與維護(hù)。