雷志強
摘 要 隨著我國改革開放及社會主義市場經(jīng)濟的快速發(fā)展,互聯(lián)網(wǎng)技術(shù)的發(fā)展促進了電子商務的繁榮,進一步推動了我國經(jīng)濟的快速發(fā)展。數(shù)據(jù)挖掘技術(shù)是一種先進的科學技術(shù),對于電子商務的數(shù)據(jù)處理具有重要作用。
關(guān)鍵詞 數(shù)據(jù)挖掘技術(shù) 特點 挖掘方法
中圖分類號:F713.3 文獻標識碼:A
1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘主要是指從大量不完全的、模糊的、有噪聲的、隨機的原始數(shù)據(jù)中提取其中較為隱秘的、人們不知道但具有潛在作用知識及信息的高級處理過程。通過有效的數(shù)據(jù)挖掘,可以將這些潛在的有用信息發(fā)掘出來,幫助企業(yè)在已有經(jīng)驗的基礎(chǔ)上對未來進行預測,以有效提高企業(yè)的市場決策力,為企業(yè)構(gòu)建核心性的競爭優(yōu)勢,同時還可以幫助專家從大量的數(shù)據(jù)研究中獲得規(guī)律,以有效提高科學研究的效率,從而更好地服務于企業(yè)的應用實踐。
數(shù)據(jù)挖掘是一個循環(huán)往復的過程,主要包括數(shù)據(jù)準備、建立模型、評估模型、解釋模型、運用模型、鞏固模型等,通過采取嚴格的觀察與分析過程,以有效促進數(shù)據(jù)挖掘技術(shù)應用的有效性,從而不斷提高電子商務的應用質(zhì)量。數(shù)據(jù)挖掘技術(shù)如路徑分析技術(shù)、聚類分析技術(shù)、關(guān)聯(lián)規(guī)則挖掘技術(shù)、分類分析技術(shù)等在電子商務發(fā)展中廣泛應用,對于更好地促進網(wǎng)站瀏覽量的提升,發(fā)掘潛在客戶并吸引新客戶起到了較大的幫助作用。
2數(shù)據(jù)挖掘在電子商務中的特點
(1)面向電子商務挖掘的任務更多表現(xiàn)在客戶關(guān)系管理方面。由于電子商務借助 Internet的力量讓企業(yè)和客戶之間的交流變得十分方便,因此,更多的需求是如何讓企業(yè)利用這些頻繁的交流,敏捷地把握客戶的動態(tài),改進企業(yè)與客戶交流的方式或提出新的交流內(nèi)容等。
(2)電子商務自身是一個信息化十分完全的系統(tǒng),它們累積的數(shù)據(jù)一般就存儲在電子商務數(shù)據(jù)庫內(nèi),用戶能十分方便地獲取這些數(shù)據(jù),因此對于電子商務的數(shù)據(jù)挖掘的數(shù)據(jù)準備階段的工作相對容易。
(3)電子商務領(lǐng)域的數(shù)據(jù)挖掘的目的通常是對電子商務系統(tǒng)的改進,比如給客戶推出個性化頁面、把用戶最感興趣的信息放在首頁或挖掘出哪些產(chǎn)品比較受歡迎等。
3數(shù)據(jù)挖掘在電子商務中的主要應用
(1)關(guān)聯(lián)規(guī)則挖掘技術(shù)
關(guān)聯(lián)分析的目的就是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,從而找到客戶對網(wǎng)站上各個文件之間訪問的相互關(guān)系,即發(fā)現(xiàn)其關(guān)聯(lián)規(guī)則。挖掘發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則往往是指支持度超過預設閾值的一組訪問網(wǎng)頁,這些網(wǎng)頁之間可能并不存在直接的引用關(guān)系。例如:采用Apriori算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則有可能發(fā)現(xiàn)訪問包含電子產(chǎn)品的頁面用戶和訪問有關(guān)體育用品的網(wǎng)頁的用戶之間存在一定的聯(lián)系。
(2)序列模式
發(fā)現(xiàn)序列模式能夠便于電子商務的管理者預測客戶的訪問模式,提供客戶個性化的服務。網(wǎng)站管理員可將訪問者按瀏覽模式分類,在頁面上只展示具有該瀏覽模式的訪問者經(jīng)常訪問的鏈接,而用一個"更多內(nèi)容"指向其他未被展示的內(nèi)容。當訪問者瀏覽到某頁面時,檢查他的瀏覽所符合的序列模式,并在顯眼位置提示"訪問該頁面的人通常接著訪問"的若干頁面。在Web上序列模式挖掘問題上,由于其數(shù)據(jù)源和需要挖掘的模式的特殊性,許多問題仍有待解決。如訪問序列的集成,用戶對感興趣的序列模式上的約束表達及帶約束的序列模式挖掘算法等。
(3)分類技術(shù)
分類技術(shù)主要是根據(jù)用戶群的特征挖掘用戶群的訪問特征。在Web數(shù)據(jù)挖掘中,分類技術(shù)可以根據(jù)訪問這些用戶而得到個人信息或共同訪問模式得出訪問某一服務器文件的用戶特征。另外,通過用戶注冊表和在線調(diào)查表也可以得到用戶的一些特征。分類可以采用監(jiān)督學習算法,如決策樹技術(shù)、貝葉斯分類法。
(4)聚類規(guī)則法
聚類分析法不同于分類規(guī)則,其輸入集是一組未標定的記錄,也就是說此時輸入的記錄還沒有進行任何分類。其目的是根據(jù)一定的規(guī)則,合理地劃分記錄集合,并用顯式和隱式的方法描述不同的類別,目前已開發(fā)出很多的聚類分析工具。在電子商務中通過聚類具有相似瀏覽行為的客戶,使管理員更多的了解客戶,提供更適合、使客戶更滿意的服務。例如,有一些客戶這段時間經(jīng)常瀏覽"furniture"、"electrical equipment",經(jīng)過分析這些客戶被聚類為一組即將結(jié)婚的客戶,對他們的服務就該有別于其他聚類客戶,這樣Web可自動給這個特定的顧客聚類發(fā)送新產(chǎn)品信息郵件,為這個顧客聚類動態(tài)改變一個特殊的站點等。
(5)路徑分析技術(shù)
路徑分析技術(shù)是 Web 應用挖掘中特有的數(shù)據(jù)挖掘技術(shù),能夠用于發(fā)現(xiàn)網(wǎng)站中用戶的頻繁查找路徑,對于其他一些和路徑相關(guān)的信息則都可以通過實行路徑分析得到。用戶在訪問站點的過程中會形成瀏覽路徑,而通過對瀏覽路徑進行分析并從中挖掘潛在知識的過程就是路徑模式挖掘。此過程主要分為三個步驟:首先將瀏覽過程中每個站點組成序列以構(gòu)成原始路徑,其次獲得最大的引用序列,最后確定最大的引用序列。通過采用路徑分析技術(shù),電子商務網(wǎng)站能夠?qū)δ愁愋偷挠脩魧﹄娮泳W(wǎng)站頻繁訪問的路徑進行分析和判定,這些路徑在一定程度上代表了用戶在瀏覽網(wǎng)站頁面過程中所形成的習慣和順序。通過將與客戶訪問信息相關(guān)的商品信息進行直接鏈接處理,可以幫助客戶更好、更快地達到自己想要訪問的頁面。這樣,電子商務網(wǎng)站就能夠在消費者心中樹立良好的印象,以有效提高消費者的忠誠度,并對潛在的消費者形成吸引,并有效延長消費者在網(wǎng)站訪問的時間,提高消費者再次訪問網(wǎng)站的幾率。最后對客戶的消費行為及反饋情況進行挖掘分析,能夠根據(jù)消費者的需求進一步優(yōu)化網(wǎng)站設計,以不斷提高網(wǎng)站的訪問質(zhì)量。
參考文獻
[1] 伍粵山.Web 數(shù)據(jù)挖掘初探[J].數(shù)據(jù)庫與信息管理,2006,2.
[2] 寧彬.Web數(shù)據(jù)挖掘綜述[J].網(wǎng)絡與安全技術(shù),2006,2.