劉光金
摘 要:該文針對數據挖掘技術在互聯(lián)網時代的應用一題進行了深入的研究,其中包括數據挖掘技術的概念介紹、數據挖掘技術的基本分析方法以及數據挖掘技術對于數據的預處理方式等,以期能夠對各位同仁帶來一些具有參考性的意見。
關鍵詞:數據挖掘技術 互聯(lián)網時代 應用
中圖分類號:TP274 文獻標識碼:A 文章編號:1672-3791(2014)10(b)-0002-01
如今,互聯(lián)網的發(fā)展速度之快是我們無法預計的,用戶能夠通過互聯(lián)網來搜索到一切想要了解的信息,將“秀才不出門便知天下事”這句古語的核心意義發(fā)揮的淋漓盡致。但由于Web缺少一定的智能性,以至于用戶只能夠依靠導航來對信息進行篩選,這樣一來就會讓搜索結果的準確性以及針對性大大降低。而伴隨著數據挖掘技術的加入,讓網站對系統(tǒng)性能和用戶喜好的分析能力大大增加,從而有效地提高了用戶的使用滿意度。
1 基本概念介紹
數據挖掘的出現(xiàn)時間為20世紀的80年代,它作為一門剛剛興起的學科來說還尚未得到人們的廣泛認可和使用。如果從技術的層面對其進行分析,數據挖掘所針對的是一些較為復雜且無規(guī)律的數據群體;而從商業(yè)的角度來說,數據挖掘所指的則是在偌大的數據庫中精準的將一些有規(guī)律的信息進行轉換和分析,并在其中將一些對商業(yè)決策有幫助的信息提取出來。
2 數據挖掘技術的基本分析方法
數據挖掘工作中最為重要的一個環(huán)節(jié)就是對數據進行分析,只有選擇一些科學且有效的計算方式才能夠將數據的挖掘工作正確的完成。其中,目前較為常用的分析方法有三種,即聚類分析法、分類和預測法以及關聯(lián)分析法,下面筆者就對其分別進行詳細的介紹。
2.1 聚類分析
聚類分析的主要工作就是將物理對象與抽象對象的整合進行分類,并同時對由相同或者相似的對象所組成的分類進行更加深入的分析,而聚類分析的最終目的就是使用詳細的方法來將數據進行有效的分類。古語說的不錯,“物以類聚,人以群分”,聚類分析法正是通過對事物之間的規(guī)律進行分析,從而能夠對各個領域進行智能化學習。
聚類分析可以被分成兩種方式,即硬聚類和模糊聚類。其中,硬聚類所代表的是將分析對象劃分到最為相近的類別當中,而模糊聚類則是通過取值范圍的大小來對分析對象進行劃分,并且一個對象有可能出現(xiàn)多個類別。
2.2 分類和預測
分類是對無排序規(guī)律的標號進行分類,而預測則是將連續(xù)值的函數模型進行預測。其中,分類對于數據挖掘技術來說是非常重要的一個基礎,通過分類能夠將數據集的特性正確的表現(xiàn)出來,從而將各個類別的屬性進行相對應的劃分。如今比較常見的計算方法為決策樹、粗糙集、貝葉斯、遺傳算法等等。
而預測則是在已知分類情況的基礎之上將未來的發(fā)展規(guī)律進行預測,目前較為常用的方式有時間序列、回歸分析以及局勢外推等等。
2.3 關聯(lián)分析
相信大家都了解蝴蝶效應,在自然界中發(fā)生的任何一次微小的變動都極有可能連帶出另一個事件的發(fā)生,而關聯(lián)分析則是遵循這個規(guī)律所完成的。事物同事物之間是具有一定的依賴性和關聯(lián)性的,基于此種情況,我們就有機會對其中的規(guī)律性進行有效的預測。
舉例說明,曾經知名度非常高的購物籃事件就是通過此種關聯(lián)分析法來進行完成的。其中,通過對顧客購物籃中物品的管理規(guī)律進行分析,從而將顧客的購買特點和購買習慣進行初步的掌握,最后根據這些數據再將日常的營銷方案和營銷策略制定出來。實踐證明,此種關聯(lián)分析法是非常有效果的。
3 數據的預處理
數據的預處理所指的是對網絡日志中的相關數據進行二次加工,在加工的過程當中需要對數據的原始性進行有效的保存。其中的挖掘算法所代表的是將數據的結構以及規(guī)則有效的選取出來。其中具體的系統(tǒng)結構如下:web日志—— 數據預處理—— 確定挖掘算法—— 數據挖掘—— 模式。
對日志進行數據挖掘之前需要對相關的數據進行優(yōu)先處理,其中包括數據的增加和減少、用戶的識別工作、會話內容的識別工作以及路徑的補充工作等等。
3.1 數據的縮減
首先來了解一下Web日志常見的數據格式:用戶的訪問日期和訪問時間、IP地址、方法、指定頁面的URL、字節(jié)數量、網頁狀態(tài)、代理頁面的URL等等。由于Web的日志挖掘工作僅僅針對用戶的行為模式較為關注,對一些沒有顯示請求的界面就非常容易被忽略。例如帶有后綴名為jpg、jpeg、gif等。在此基礎之上在對余下的篩選記錄中將相關的項進行選取和挖掘。
3.2 用戶識別
在用戶的系統(tǒng)中通常都會設置防火墻,所以在Web日志中所產生的記錄極有可能是不真實的。這就會使用戶識別工作變得異常的復雜和繁瑣,使用啟發(fā)式規(guī)則則能夠讓用戶的識別工作有效的完成。
規(guī)則一:假設用戶的IP相同,如果代理瀏覽器的操作系統(tǒng)出現(xiàn)了變化,則代表其屬于不同的用戶。
規(guī)則二:假設用戶的IP相同,如果當下的鏈接頁面同已經瀏覽過的鏈接頁面沒有任何的關系,則代表用戶是不同的。
3.3 會話識別
會話識別的最終目的是可以將用戶的訪問記錄進行劃分,從而形成多個單獨的會話,并以此來作為不同的用戶單位。其中,如果歷經時間超過了事先的限定范圍,則會默認認為一個新的會話已經開始。
3.4 路徑補充
如果想要達到減少網絡傳輸量的目的,目前大部分的瀏覽器都會采取對剛剛訪問的頁面進行緩存的做法。其中,如果用戶在頁面中給出了返回指令,系統(tǒng)將會顯示出緩存頁面。由于Web的服務器無法對用戶的訪問頁面有效的進行確定,對PostLOG表中的refer進行檢查將能夠完成對頁面的確定工作。
如果用戶的訪問歷史中包含了多個當前頁面的鏈接,將優(yōu)先選擇請求時間最接近的的頁面。
4 結語
互聯(lián)網已經逐漸的在人們的生活中占據了主導的地位,為了能夠讓用戶有更好的體驗感受,相關的技術部門應該對用戶的行為進行更準確的理解和掌握。伴隨著數據管理工作的不斷優(yōu)化,以及相關檢索技術的不斷進步,數據挖掘技術將在未來擁有著更為廣大的發(fā)展舞臺,讓其能夠更好地為互聯(lián)網、為用戶提供服務。
參考文獻
[1] 胡天狀.數據挖掘技術在教育決策支持系統(tǒng)中的應用[D].杭州:浙江師范大學,2002.
[2] 丁守哲.基于云計算的建筑設計行業(yè)信息系統(tǒng)開發(fā)模式與實現(xiàn)技術研究[D].合肥:合肥工業(yè)大學,2012.
[3] 劉華婷,郭仁祥,姜浩.關聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J].計算機應用與軟件,2009(1):146-149.