劉樹超,李永臣,武洪萍
LIU Shu-chao1, LI Yong-chen2, WU Hong-ping1
(1. 山東信息職業(yè)技術學院,濰坊,261041;2. 濰坊市社會保險事業(yè)管理中心,濰坊 261061)
Web數(shù)據(jù)挖掘研究與探討
Research and discussion of Web data mining
劉樹超1,李永臣2,武洪萍1
LIU Shu-chao1, LI Yong-chen2, WU Hong-ping1
(1. 山東信息職業(yè)技術學院,濰坊,261041;2. 濰坊市社會保險事業(yè)管理中心,濰坊 261061)
WWW是一個巨大的、分布廣泛的、全球性的信息服務中心,它包含了豐富的信息資源。Web數(shù)據(jù)挖掘可以快速有效地獲取所需要的信息。本文重點探討了Web挖掘的基本原理和關鍵技術,針對Web挖掘的分類進行了描述,論述了Web挖掘的挖掘流程、應用領域及研究發(fā)展方向。
數(shù)據(jù)挖掘;Web內容挖掘;Web使用挖掘;Web結構挖掘
隨著Internet/Web技術的快速普及和迅猛發(fā)展,Internet已經成為人們獲得信息的重要手段,但它是巨大的、多樣的和動態(tài)變化的。隨著Web站點的規(guī)模和復雜度的增加,站點設計和維護工作變得越來越困難。作為網(wǎng)站經營者,希望根據(jù)用戶的訪問興趣、訪問頻度、訪問時間動態(tài)地調整頁面結構,改進服務,開展有針對性的電子商務以更好地滿足訪問者的需求。而從訪問者的角度出發(fā),他們希望用最簡潔的方式得到最精確的信息,希望得到個性化的服務。Web數(shù)據(jù)挖掘就是為順應這種需要而發(fā)展起來的數(shù)據(jù)處理技術,即利用數(shù)據(jù)挖掘的思想和方法,在Web上挖掘出有用的信息。
Web數(shù)據(jù)挖掘(Web Data Mining WDM)是將數(shù)據(jù)挖掘技術運用于Web數(shù)據(jù),提取人們感興趣的、隱藏其中的、有用的、新穎的模式或知識的過程。也就是說,針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、電子商務信息等在內的各種Web數(shù)據(jù),應用數(shù)據(jù)挖掘方法以幫助人們從WWW中提取知識,為訪問者、站點經營者以及包括電子商務在內的基于因特網(wǎng)的商務活動提供決策支持。Web挖掘與數(shù)據(jù)挖掘一樣也是一個交叉研究領域,它涉及Web技術、數(shù)據(jù)挖掘、計算機語言學、信息學等多個領域,像人工智能、機器學習、概率統(tǒng)計及數(shù)據(jù)庫等仍然是Web挖掘的基礎。另外,由于Web挖掘的特點,像信息檢索(Information Retrieval,IR)和信息抽?。↖nformation Extraction,IE)等研究領域的交叉研究更值得關注。
Web挖掘面向的是網(wǎng)站數(shù)據(jù)。凡是在Web站點中對用戶有價值的數(shù)據(jù)都可以成為Web挖掘的數(shù)據(jù)源。其中包括網(wǎng)頁文本信息、網(wǎng)頁鏈接信息、網(wǎng)站的訪問記錄及其他可收集的信息等。但是,不同的挖掘目的、不同的挖掘算法總是依靠不同的一種或幾種數(shù)據(jù)源。通常,Web挖掘的數(shù)據(jù)源有以下幾種類型:
1)內容數(shù)據(jù):即Web頁面,如HTMLXML文檔、動畫、圖片、語音和圖像等。
2)用戶訪問數(shù)據(jù):即描述用戶使用網(wǎng)絡資源的數(shù)據(jù),通常以日志文件的形式存在,如服務器日志(Server logs),錯誤日志(Error logs)和Cookie logs。
3)結構數(shù)據(jù):如網(wǎng)頁的內部鏈接和網(wǎng)頁間的超鏈接。
4)在線市場數(shù)據(jù):是和市場活動相關的信息。通常是用傳統(tǒng)的關系數(shù)據(jù)庫結構來存儲,如電子商務網(wǎng)站的電子商務信息等。將它們和訪問日志集成,有助于提高Web挖掘的準確度。
5)其他數(shù)據(jù),主要包括用戶注冊信息等一系列數(shù)據(jù)。
Web上的數(shù)據(jù)具有非結構化、動態(tài)、不完全、混沌的特點和巨大、分層、多維的形式,Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比,有其自身特有的性質與要求,可以歸納以下幾點[1,2]:
1)數(shù)據(jù)量巨大,Web數(shù)據(jù)涉及各種不同行業(yè)與領域,又由于連接在Internet上的電腦數(shù)量非常巨大,所以,Web數(shù)據(jù)目前以TB數(shù)量級計算,而且仍然在迅速增長,這就要求Web挖掘方法在對大數(shù)據(jù)集進行挖掘時依然具有高效率。
選擇150羽1日齡羅曼蛋公雞,飼養(yǎng)至10日齡(母源抗體效價平均為1.0±0.0 Log2)選取120羽隨機分為4組,每組30只,14日齡和28日齡分別全部用1羽份的法氏囊疫苗點眼滴鼻,每次免疫的同時,第1組在基礎日糧中添加1%的中藥復方多糖,第2組在基礎日糧中添加1%的黃芪多糖,連續(xù)3 d,第3組為免疫不用藥疫苗對照組,第4組為不免疫不用藥空白對照組(見表1).
2)動態(tài)性,Internet本身就是一個時刻動態(tài)更新和變化的系統(tǒng),網(wǎng)頁數(shù)量猛增,頁面內容也經常更新,如新聞、股票市場、服務中心和企業(yè)網(wǎng)都在定期更新Web網(wǎng)頁,網(wǎng)頁鏈接和訪問記錄也在不斷更新。因此需要借鑒數(shù)據(jù)倉庫的某些技術,以此保存Web上動態(tài)更新的數(shù)據(jù)。
3)多樣性,Web數(shù)據(jù)經過濾后,既有數(shù)值型(整型、實型)、布爾型,又有分類數(shù)據(jù)、性質描述數(shù)據(jù)以及Web特有的數(shù)據(jù)類型如URL地址、E-mail地址等。這些新的數(shù)據(jù)類型需要對原有數(shù)據(jù)挖掘方法進行改進和擴充。
4)異質性,Web上的數(shù)據(jù)可以是自由文本、文檔、圖像或其它多媒體數(shù)據(jù),也可以超級鏈接、URL地址、E-mail地址和用戶訪問信息(Web日志),它們雖然有相似的特征,但在本質上差別是相當大的。
5)異構性,Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構的,這就構成了一個巨大的異構數(shù)據(jù)庫環(huán)境。其構造特征也存在很大的差異。大多為半結構化數(shù)據(jù)或非結構化數(shù)據(jù),相對于Web數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)此模型來具體描述特定的數(shù)據(jù),但Web上的數(shù)據(jù)沒有特定的模型描述。半結構化是Web數(shù)據(jù)的最大特點。
根據(jù)數(shù)據(jù)源種類的不同,Web挖掘可以分為三類[2,9,10]:Web內容挖掘(Web Content Mining)、Web使用挖掘(Web Usage Mining)和Web結構挖掘(Web Structure Mining)。(文獻[4]提出Web結構可以被認為是Web內容挖掘的一部分。)圖1給出了Web挖掘的分類圖。
圖1 Web挖掘分類圖
Web內容挖掘是從網(wǎng)頁內容、數(shù)據(jù)、文檔中發(fā)現(xiàn)信息、抽取知識或模式的過程。由于Web數(shù)據(jù)分布廣泛,如電子商務數(shù)據(jù)、數(shù)字圖書館數(shù)據(jù)、FTP上的數(shù)據(jù)、以及其他各種通過Web可以訪問的數(shù)據(jù)庫。既有來自于數(shù)據(jù)庫的結構化數(shù)據(jù),也有用HTML標記的半結構化數(shù)據(jù)和無結構的自由文本。數(shù)據(jù)源的復雜決定了Web數(shù)據(jù)類型的多樣性,但是主要有文本(Text/HTML/XML)、圖像(Image)、聲音(Audio)、視頻(Video)、元數(shù)據(jù)(Metadata)以及超級鏈接(Hyperlinks)等幾種數(shù)據(jù)類型。Web內容挖掘就其挖掘內容而言,可分為基于文本信息的Web文本挖掘和基于多媒體信息的Web多媒體挖掘。就其挖掘策略的不同又可分為Web概要(即直接挖掘Web文檔的內容)和搜索引擎結果概要(即對搜索引擎的查詢結果作進一步的處理,得到更為精確和有用的信息,以增強搜索引擎的內容查詢功能)。按實現(xiàn)方法又分為信息查詢(Information Retrieval,IR)方法和數(shù)據(jù)庫方法。IR方法主要應用IR技術,評估改進搜索信息的質量,處理無結構數(shù)據(jù)和HTML標記的半結構化數(shù)據(jù);數(shù)據(jù)庫方法是把半結構化的Web信息重構得更結構化,然后可以使用標準化的數(shù)據(jù)庫查詢機制和數(shù)據(jù)挖掘方法進行分析。
Web使用挖掘也稱為Web日志挖掘、Web訪問信息挖掘或Web使用記錄挖掘?,F(xiàn)在許多商務及交易都是通過Internet或Web來實現(xiàn)的。從而每天在服務器方都會產生大量的訪問數(shù)據(jù),這些數(shù)據(jù)通常是由服務器自動產生并將其存放在服務器日志文件中。Web使用挖掘可以對用戶訪問Web時在服務器方留下的訪問記錄進行挖掘。Web使用挖掘面對的是在用戶和網(wǎng)絡交互的過程中抽取出來的第二手數(shù)據(jù),這些數(shù)據(jù)包括:網(wǎng)絡服務器日志記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶注冊信息、Cookie中的信息、鼠標點擊流、用戶對話或交易信息等一切用戶與站點之間可能的交互記錄。它通過挖掘Web日志文件及其相關數(shù)據(jù)來發(fā)現(xiàn)用戶訪問Web頁面的模式,幫助理解用戶的行為,從而改進站點的結構或為用戶提供個性化服務。
Web使用挖掘的研究方向主要有兩個:一般的訪問模式追蹤和個性化的使用記錄追蹤。一般的訪問模式追蹤通過分析使用記錄來了解用戶的訪問模式和傾向,以改進站點的組織結構;而個性化的使用記錄追蹤則傾向于分析單個用戶的偏好,是根據(jù)不同用戶的訪問模式,為每個用戶提供個性化的定制站點。
Web使用挖掘的關鍵在于當用戶訪問網(wǎng)絡時能夠預測出用戶的行為和活動。其挖掘方法主要有以下兩種:一是將Web訪問記錄的數(shù)據(jù)作為原始數(shù)據(jù),應用特定的預處理方法進行處理后再進行挖掘;二是將Web訪問記錄的數(shù)據(jù)轉換為結構化數(shù)據(jù)并存儲在數(shù)據(jù)庫或數(shù)據(jù)倉庫中,然后再使用數(shù)據(jù)挖掘算法對其進行挖掘。
Web不僅由頁面組成,而且包含了鏈接頁面的超級鏈接。超鏈接反映了Web頁之間的某種關系,如繼承關系和引用關系。但是目前大多數(shù)的Web搜索工具很少將Web結構考慮進去,仍將Web看成是相互獨立文檔的集合。Web結構挖掘是在Web的組織結構和鏈接關系中進行挖掘。Web結構挖掘的對象可以是Web頁面之間的超鏈接,也可以是Web頁面的內部結構。Web結構挖掘的基本思想是將Web看作一個有向圖,他的頂點是Web頁面,頁面間的超鏈接就是圖的邊。然后利用圖論對Web的拓撲結構進行分析。
由于Web文檔之間的關聯(lián)關系使得WWW不僅可以揭示W(wǎng)eb文檔所包含的信息,也揭示了文檔間的關聯(lián)關系所代表的信息,反映了文檔之間的某種聯(lián)系,同時能體現(xiàn)某個頁面的重要程度,利用這些信息可以對頁面進行排序,發(fā)現(xiàn)重要的頁面。挖掘Web結構的目的是:發(fā)現(xiàn)Web的結構和頁面的結構及其蘊含在這些結構中的有用模式;對頁面及其鏈接進行分類和聚類,找出權威頁面。在Web結構挖掘領域最著名的算法是Page-rank方法[5]和HITS方法。他們的共同點是使用一定方法計算Web頁面之間超鏈接的質量,從而得到頁面的權重。IBM Almaden Research Center開發(fā)的Clever系統(tǒng)和Google搜索引擎就采用了該類算法。
Web挖掘就是利用數(shù)據(jù)挖掘技術從網(wǎng)絡文檔和服務中發(fā)現(xiàn)和提取信息。與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結構化或半結構化的、動態(tài)的,并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進行數(shù)據(jù)挖掘,而必須經過必要的數(shù)據(jù)預處理。典型Web挖掘的處理流程如圖2所示[6]:
圖2 Web數(shù)據(jù)挖掘的工作流程
1)資源發(fā)現(xiàn)( Resource Finding):是指從Web獲取并返回文本資源的過程。文本資源最常見的是HTML文檔,其他的還有電子郵件、新聞組、BBS、網(wǎng)站的日志數(shù)據(jù)或通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)等。
2)信息選擇和預處理( Information Selection and Pre-processing):是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如,從Web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段,并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關系表。
3)模式識別(Model Identify):這個階段主要運用數(shù)據(jù)挖掘技術和統(tǒng)計方法,從Web使用記錄中挖掘知識。實現(xiàn)算法可以是統(tǒng)計分析、路徑分析、關聯(lián)規(guī)則、序列模式以及分類聚類等。
4)模式分析(Model Analysis):這個階段的任務是采用合適、成熟的技術和工具,進行模式的分析,從而輔助分析人員的理解,使采用各種工具挖掘出的模式得到很好的利用。目前常用的方法有:采用類似SQL的形式化查詢進行分析;先將數(shù)據(jù)導入多維數(shù)據(jù)立方體中,再利用OLAP工具進行分析并提供可視化的結果輸出。可視化技術被經常應用到模式分析的結果顯示。
Web挖掘技術的應用涉及了搜索引擎、電子商務、企業(yè)危機管理等多方面。對于搜索引擎而言,通過借鑒Web挖掘技術,可以實現(xiàn)搜索引擎結構的挖掘,改進和提高搜索引擎的質量和效率,確定權威頁面,提高查準率與查全率。在電子商務中,運用Web挖掘技術可以進行流量分析,找到網(wǎng)站中最重要的部分,進行廣告分析,確定廣告的點擊率,進行用戶來源分析,進行瀏覽器和平臺分析,為網(wǎng)站設計和優(yōu)化提供依據(jù)。同時可以得到關于群體用戶訪問行為和方式的普遍知識,用以改進Web服務設計。更重要的是,通過對用戶特征的理解和分析,如對用戶訪問行為、頻度、內容等的分析,提取出用戶的特征,從而為用戶定制個性化的界面,有助于開展有針對性的電子商務活動。在企業(yè)危機管理中可以運用Web挖掘技術搜集企業(yè)經營環(huán)境信息,分析企業(yè)經營狀況,監(jiān)督網(wǎng)上輿論,進行風險分析、控制和預防危機。文獻[3]以搜索引擎為重點論述了Web挖掘的應用。
目前,在國內外Web挖掘的研究是前沿性的研究領域。將來的研究方向主要有以下幾點:Web數(shù)據(jù)挖掘中內在機理的研究;Web知識庫(模式庫)的動態(tài)維護、更新,各種知識和模式的融合與提升,以及知識的評價綜合方法;半結構、非結構化的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法;Web數(shù)據(jù)挖掘算法在海量數(shù)據(jù)挖掘時的適應性與時效性;基于Web挖掘的智能搜索引擎的研究;智能站點服務個性化和性能最優(yōu)化的研究;關聯(lián)規(guī)則和序列模式在構造自組織站點的研究;分類在電子商務市場智能提取中的研究。
本文討論了Web數(shù)據(jù)挖掘的概念、基本原理和關鍵技術,闡述了Web數(shù)據(jù)挖掘的分類、工作流程、應用領域及今后的發(fā)展方向。如何進一步發(fā)展Web資源,勢必要進行更加深入的研究,Web數(shù)據(jù)挖掘的研究將充滿挑戰(zhàn)又極富發(fā)展?jié)摿Α?/p>
[1] 馬保國,侯存軍,王文豐,錢方正.Web數(shù)據(jù)挖掘技術及應用[J].計算機與數(shù)字工程,2006,34(6):20-22.
[2] 張蓉.Web挖掘技術研究[J].計算機工程,2006,32(15):4-6.
[3] 薛鴻民.Web數(shù)據(jù)挖掘技術研究[J].現(xiàn)代電子技術,2006(15):99-101.
[4] 劉曉鵬,邢長征.基于Web文本數(shù)據(jù)挖掘的研究[J].計算機與數(shù)據(jù)工程,2005,33(9):75-79.
[5] Kleinberg J.Authoritative Sources in a Hyperlinked Environment.In ACM SIAM Symposium on Discrete Algorithms,1998.
[6] R.Kosala,H.Blockeel.Web Mining Research:A SLINey.SIGKDD Expioration, 2000,2(1):1-15.
TP391
A
1009-0134(2010)09-0163-03
10.3969/j.issn.1009-0134.2010.09.50
2010-02-03
劉樹超(1963 -),男,高級講師,學士,研究方向為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘。