孫學軍
(1.山東大學計算機科學與技術學院 計算機應用技術專業(yè),山東 濟南 250101;2.臨沂師范學院 費縣分校,山東 費縣 273400)
簡單說來,所謂電子商務 (E lec tron ic Comm e rce)是利用計算機技術、網絡技術和遠程通信技術,實現(xiàn)整個商務 (買賣)過程中的電子化、數(shù)字化和網絡化.人們不再是面對面的、看著實實在在的貨物、靠紙介質單據(jù) (包括現(xiàn)金)進行買賣交易.而是通過網絡,通過網上琳瑯滿目的商品信息、完善的物流配送系統(tǒng)和方便安全的資金結算系統(tǒng)進行交易或買賣.
電子商務是商業(yè)領域的一種新興商務模式,它是以網絡為平臺,以現(xiàn)代信息技術為手段,以經濟效益為中心的現(xiàn)代化商業(yè)運轉模式,其最終目標是實現(xiàn)商務活動的網絡化、數(shù)字化和智能化.電子商務的產生改變了企業(yè)的經營理念、管理方式和支付手段,給社會的各個領域帶來了巨大的變革,而電子商務的發(fā)展也使得公司內部積累了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉換成有用的信息和知識,為公司謀求更多潛在的利潤.利用功能強大的Web數(shù)據(jù)挖掘技術可以有效地幫助企業(yè)分析從網上獲取的大量數(shù)據(jù),提取出有效信息,進而指導企業(yè)和商家調整營銷策略,給客戶提供動態(tài)的個性化的高效率服務.
1.1 數(shù)據(jù)挖掘的定義.數(shù)據(jù)挖掘 (datamining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程,它包括存儲和處理數(shù)據(jù)、選擇處理大數(shù)據(jù)集的算法、解釋結果和使結果可視化等操作.
1.2 數(shù)據(jù)挖掘的方法.從商業(yè)的角度來看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù).數(shù)據(jù)挖掘的方法大致可以分成以下 4類:
(1)關聯(lián)分析:分析表面上不相關數(shù)據(jù)之間的內在聯(lián)系,揭示各事之間的依賴性和相關性,分析范圍包括簡單關聯(lián)、因果關聯(lián)等.
(2)概括分析:即提取數(shù)據(jù)庫中指定的數(shù)據(jù)集合的一般特性,找出遍性規(guī)律.
(3)分類分析:設置分類規(guī)則,把各個事務或實體按照性質和特征不同進行歸類,把數(shù)據(jù)層次化和規(guī)整化,從而建立數(shù)據(jù)的分類模型.
(4)聚類分析:通過分析和歸納實體之間的特征差異,選出具有相似特征的實體聚合成為一個類,并用某種規(guī)則來描述該類的相同屬性,形成一種聚類規(guī)則,實際上,它是與分類分析法互逆的過程.
1.3 數(shù)據(jù)挖掘的過程.該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識.數(shù)據(jù)挖掘的過程通常有以下幾步:
(1)確定業(yè)務對象:清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的.挖掘的最后結構是不可預測的,但要探索的問題應是有預見的.
(2)數(shù)據(jù)準備.該步驟主要是數(shù)據(jù)的選擇,即搜索所有與業(yè)務對象有關的內部的和外部的數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù).
(3)數(shù)據(jù)挖掘:對所得到的并經過轉換的數(shù)據(jù)進行挖掘.該步除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成.
(4)結果分析:解釋并評估結果.其使用的分析方法一般應作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術.
(5)知識的同化:將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結構中去.
Web數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術從Web文檔及Web服務中自動發(fā)現(xiàn)并提取人們感興趣的信息.它是一項綜合技術,涉及 Internet技術、人工智能技術、計算機語言學、信息學、統(tǒng)計學等多個學科領域.Web數(shù)據(jù)挖掘是對數(shù)據(jù)挖掘的一種新的應用,但又不同于傳統(tǒng)的數(shù)據(jù)挖掘.其主要區(qū)別在于:傳統(tǒng)的數(shù)據(jù)挖掘的對象局限于數(shù)據(jù)庫中的結構化數(shù)據(jù),并利用關系表等存儲結構來挖掘知識;而Web挖掘的對象是半結構化或非結構化數(shù)據(jù).
Web數(shù)據(jù)挖掘依靠它所挖掘的站點信息來源可以分為以下三種類型:
(1)Web內容挖掘
Web內容挖掘是指對站點的Web頁面內容進行挖掘.該類挖掘目前主要包括以下幾種方法:
①改進傳統(tǒng)的 WWW 搜索引擎 ,包括 Lycos、Vista、WebCrawler、ALIWeb、MetaCrawler等.
②在WWW上更智能的提取信息的搜索工具,包括 IntelligentWeb Agent、Information Filtering/Categorization、Personalized Web A gen ts.
③數(shù)據(jù)庫方法:把半結構化的Web信息重構得更結構化一些,然后就可以使用標準化的數(shù)據(jù)庫查詢機制和數(shù)據(jù)挖掘方法進行分析.
④對 H TM L頁面內容進行挖掘,對頁面中的文本進行文本挖掘,對頁面中的多媒體信息進行多媒體信息挖掘.包括對頁面內容摘要、分類、聚類以及關聯(lián)規(guī)則發(fā)現(xiàn)等.
(2)Web訪問挖掘
Web訪問挖掘是對用戶訪問Web時在服務器方留下的訪問記錄進行挖掘,即對用戶訪問Web站點的存取方式進行挖掘.挖掘的對象是在服務器上的包括 Se rve r Log D a ta等在內的日志文件記錄.目前,該類挖掘流行的手段包括路經分析、關聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)、聚類和分類、改進Web站點的效率、實現(xiàn)個性化推薦、商業(yè)智能的發(fā)現(xiàn)、發(fā)現(xiàn)導航模式和抽取訪問信息特性等.
(3)Web結構挖掘
Web結構挖掘是對Web頁面之間的鏈接結構進行挖掘.在整個Web空間里,有用的知識不僅包含在Web頁面的內容之中,而且也包含在頁面的鏈接結構之中.例如,如果我們發(fā)現(xiàn)一個論文頁面經常被引用,那么,這個頁面一定是非常重要的.發(fā)現(xiàn)的這種知識可以被用來改進搜索引擎,如 PageRank和 C leve r方法等.
電子商務中Web數(shù)據(jù)挖掘的過程一般由 3個主要的階段組成:數(shù)據(jù)準備、挖掘操作、結果表達和解釋.
(1)數(shù)據(jù)準備這個階段又可進一步分成 3個子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預處理.數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理,解決語義模糊數(shù)據(jù)準備,這個階段又可進一步分成為處理數(shù)據(jù)中的遺漏等.數(shù)據(jù)選擇目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質量.預處理是為了克服日前數(shù)據(jù)挖掘工具的局限性.
(2)數(shù)據(jù)挖掘這個階段進行實際的挖掘操作,包括的要點有:
①首先決定如何產生假設;
②選擇合適的工具;
③發(fā)掘知識的操作;
④證實發(fā)現(xiàn)的知識.
(3)結果表述和解釋根據(jù)最終用戶的決策目的對提取的信息進行分析,把最有價值的信息區(qū)分開來.并且通過決策支持工具提交給決策者.因此,這一步驟的任務不僅是把結果表達出來,還要對信息進行過濾處理,如果不能令決策者滿意,需要重復上述過程.
電子商務的產生,改變了企業(yè)的經營理念,給社會的各個行業(yè)帶來了巨大的變化,已成為引導經濟發(fā)展的新潮流.而數(shù)據(jù)挖掘的應用又將極大地提高企業(yè)獲取信息的能力,使企業(yè)信息資源的價值得到充分地體現(xiàn).那么如何很好將Web數(shù)據(jù)挖掘技術應用于電子商務中呢?我認為應主要從以下幾個方面進行探討.
按電子商務目標的不同,Web數(shù)據(jù)挖掘大致可分為 3類:以分析系統(tǒng)為目標;以設計系統(tǒng)為目標;以理解用戶意圖為目標.由于各目標針對的功能不同,采取的主要技術也不同.究竟采取何種技術,主要取決于以下三個方面:
(1)用戶的確定.用戶是指通過一個瀏覽器訪問一個或幾個服務器的個體.在Web數(shù)據(jù)挖掘中,對于實際使用要想確定唯一的一個用戶很難,這時我們可以把服務器日志、代理 (agen t)和參照 (refe rence)頁面日志結合起來確定一個用戶.
(2)用戶訪問序列的確定.它就是按照時間順序找出用戶請求的一系列頁面.一般服務器日志是以訪問用戶的 IP地址為輔鍵、訪問時間為主鍵排列的,因此,找出統(tǒng)一的 IP按時間訪問的頁面序列,就構成了用戶訪問系列.用戶 session的確定,一次訪問中用戶訪問所有的頁面,最簡單的方法就是按時間的長度確定
(3)完善訪問路徑.由于存在著客戶端的緩存,用戶瀏覽頁面時能使用瀏覽器的后退功能,要根據(jù)用戶訪問的前后頁面進行推理,將其疏漏的頁面補在路徑里.另外,執(zhí)行CG I程序時,由于其傳遞的參數(shù)不同,最后的輸出結果不同,必要時還要結合參數(shù)確定顯示的頁面內容.
Web數(shù)據(jù)挖掘有利于合理建造網站及合理設計服務器,如輔助改進分布式網絡系統(tǒng)的設計性能,在有高度相關的站點間提供快速有效的訪問通道;幫助更好地組織設計Web主頁;幫助改善市場營銷決策,如把廣告放在適當?shù)腤eb頁面上或更好地理解客戶的興趣,這樣的知識將有助于商家制定促銷策略.
在電子商務中,客戶瀏覽信息被Web服務器自動收集并保存在訪問日志、引用日志和代理日志中.這些日志數(shù)據(jù)信息被組合應用于計算機并行處理、神經元網絡、模型化算法和其他信息處理技術手段.對此進行分析加工,從中可得到商家用于向特定消費群體或個體進行定向營銷的決策信息.同時有效地對這些Web日志進行定量分析,揭示其中的關聯(lián)關系、時序關系、頁面類屬關系、客戶類屬關系和頻繁訪問路徑、頻繁訪問頁面等,不但可為優(yōu)化Web站點拓撲結構提供參考,而且還可以為企業(yè)更有效地確認目標市場、改進決策獲得更大的競爭優(yōu)勢提供幫助.
目前,應用于電子商務的 Web數(shù)據(jù)挖掘工具有很多.其中,比較典型的主要有SurfAid、LeviStrauss、In te lligentM iner for Text、Analog、W UM 和 ACCRUE In sigh t 5等幾種工具.
下面是Web數(shù)據(jù)挖掘在電子商務中的幾點具體的應用.
(1)發(fā)現(xiàn)潛在客戶:在對Web的客戶訪問信息的挖掘中,利用分類技術可以 Internet上找到未來的潛在客戶.通過分類技術,對新訪問者的網頁瀏覽紀錄進行分析,就可以判斷出該訪問者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無價值的過客,從而挖掘潛在客戶.
(2)提供優(yōu)質個性化服務:在網上,每一個銷售商對于客戶來說都是一樣的,那么如何使客戶在自己的銷售站點上駐留更長的時間,對銷售商來說將是一個挑戰(zhàn).為了達到這一目的,就應該了解客戶的瀏覽行為,知道客戶的興趣及需求所在,動態(tài)地調整Web頁面,以滿足客戶的需要.通過對客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求.
(3)改進站點設計:對Web站點的鏈接結構的優(yōu)化可從三方面來考慮:(1)通過對Web Log的挖掘,發(fā)現(xiàn)用戶訪問頁面的相關性,從而對密切聯(lián)系的網頁之間增加鏈接,方便用戶使用.(2)利用路徑分析技術判定在一個Web站點中最頻繁的訪問路徑,可以考慮把重要的商品信息放在這些頁面中,改進頁面和網站結構的設計,增強對客戶的吸引力,提高銷售量.(3)通過對Web Log的挖掘,發(fā)現(xiàn)用戶的期望位置.如果在期望位置的訪問頻率高于對實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立導航鏈接,從而實現(xiàn)對Web站點結構的優(yōu)化.
(4)聚類客戶:通過把具有相似瀏覽行為的客戶分為一組,并分析組中客戶的共同特征,可以幫助電子商務的組織者更好地了解自己的客戶,向客戶提供更適合、更面向客戶的服務.
(5)廣告效益評價.利用Web挖掘對大量消費行為模式進行分析,可精確地評價各種廣告手段的效益,并組合設計出最佳的商品宣傳組合方案,根據(jù)關心某產品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率.
(6)搜索引擎的應用:通過對網頁內容的挖掘,可以實現(xiàn)對網頁的聚類和分類,實現(xiàn)網絡信息的分類瀏覽與檢索;通過用戶使用的提問式歷史記錄分析,可以有效地進行提問擴展,提高用戶的檢索效果 (查全率、查準率);通過運用Web挖掘技術改進關鍵詞加權算法,可以提高網絡信息的標引準確度,改善檢索效果.
(7)網絡安全:分析網上銀行、網上商店交易用戶日志,可以防范黑客攻擊、惡意詐騙.
電子商務以所具有的開放性和全球性正逐步代替實物流,從而減少了人力、物力,減少了中間環(huán)節(jié),降低了成本,突破了時間和空間的限制,使得交易活動可以在任何時間、任何地點進行,提高了效率.但是,在現(xiàn)實情況下,電子商務企業(yè)常常面臨著數(shù)據(jù)龐大而真正有效數(shù)據(jù)卻很少的困境.而利用Web數(shù)據(jù)挖掘技術,可以從各種煩亂復雜的數(shù)據(jù)中挖掘出有效的信息,從而為企業(yè)的做出正確的決策提供支持,進一步提高企業(yè)的競爭力,這樣可以有利于促進企業(yè)開拓市場,優(yōu)化企業(yè)資源,提高企業(yè)的經營效率和管理水平,為企業(yè)資源計劃 (ERP)、客戶關系管理 (CRM)、產品數(shù)據(jù)管理 (PDM)和商業(yè)信用評估等提供有效的技術途徑.
[1]方真等.電子商務教程[M].北京:清華大學出版社,2004.
[2]張云濤,龔鈴.數(shù)據(jù)挖掘原理與技術[M].北京:電子工業(yè)出版社,2004.
[3]林瑞娟,侯德文.Web挖掘及其在電子商務中的應用研究[J].計算機技術與發(fā)展,2006,16(8):186-188.[4]袁學松,宣賓.Web挖掘技術在電子商務中的應用[J].電腦知識與技術,2006,14(8):78-79.
[5]張冬青.數(shù)據(jù)挖掘在電子商務中應用問題研究[J].現(xiàn)代情報,2005(09).
[6]陸垂偉.電子商務中數(shù)據(jù)挖掘技術的研究與應用[J].商場現(xiàn)代化,2006(04).
[7]龔曉君.數(shù)據(jù)挖掘算法研究及在電子商務中的應用[D].杭州:浙江大學,2005.