付生
摘 要:對網(wǎng)絡日志挖掘技術數(shù)據(jù)信息分析的研究,是動態(tài)交互網(wǎng)絡使用數(shù)據(jù)挖掘的一種技術實現(xiàn)。通過挖掘動態(tài)交互網(wǎng)絡日志,可以查找用戶訪問動態(tài)交互網(wǎng)絡的瀏覽方式和習慣性行為,并依據(jù)數(shù)據(jù)挖掘分析和研究動態(tài)交互網(wǎng)絡日志記錄中的規(guī)律,判斷數(shù)據(jù)價值鏈與組織結構的適應性問題,從而提高信息查找的快速指向性和信息檢索的高效性,并利用統(tǒng)計和關聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內在聯(lián)系。
關鍵詞:日志挖掘;數(shù)據(jù)分析;信息檢索;網(wǎng)絡日志
中圖分類號:TP311.13 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2015.06.068
1 日志數(shù)據(jù)挖掘
動態(tài)交互網(wǎng)絡獲取信息的過程存在站點訪問的跳躍性和無序性,數(shù)據(jù)信息指向是呈布朗運動分布的。超文本鏈接的跳轉過程具有一定的普遍性,并且還有數(shù)據(jù)存量大、數(shù)據(jù)更替快等大數(shù)據(jù)4V特點。挖掘規(guī)律即是動態(tài)交互網(wǎng)絡用戶訪問信息發(fā)現(xiàn)的重要研究內容。動態(tài)交互網(wǎng)絡日志挖掘是對大量用戶行為和數(shù)據(jù)價值有效性的判斷,該判斷是經(jīng)過數(shù)據(jù)的預處理、數(shù)據(jù)模式識別和模式分析3個過程實現(xiàn)的。
2 動態(tài)交互網(wǎng)絡日志挖掘的過程
對于動態(tài)交互網(wǎng)絡日志挖掘,首先要研究和分析網(wǎng)絡日志記錄信息存在的變化和特點,進而實現(xiàn)數(shù)據(jù)的預處理過程。另外,要識別用戶信息,提高對用戶價值信息的服務質量,改進動態(tài)交互網(wǎng)絡服務系統(tǒng)的數(shù)據(jù)信息判斷和組織結構。
2.1 數(shù)據(jù)預處理
在動態(tài)交互網(wǎng)絡日志文件記錄中,存儲的是用戶訪問站點信息的原始記錄,而原始記錄的數(shù)據(jù)具有多樣性和大量性,所以,直接從數(shù)據(jù)中挖掘其有效價值存在不確定性和一定的困難。在借助一定的算法和工具分析數(shù)據(jù)時,必須要對數(shù)據(jù)進行預處理。預處理過程是指對數(shù)據(jù)質量、數(shù)據(jù)的多樣性和量級進行處理,這會直接影響數(shù)據(jù)挖掘的結果,還會影響數(shù)據(jù)價值存在的判斷。對于數(shù)據(jù)訪問量小、數(shù)據(jù)多樣性單一的網(wǎng)絡日志信息,數(shù)據(jù)處理的準確性具有非常重要的意義。日志預處理主要是通過數(shù)據(jù)凈化、用戶識別、會話識別和數(shù)據(jù)合并4個過程實現(xiàn)的。
2.2 數(shù)據(jù)模式發(fā)現(xiàn)
利用數(shù)據(jù)挖掘相關算法是實現(xiàn)對網(wǎng)絡日志中隱藏的、重復的、大量有用的或者無用的信息進行數(shù)據(jù)模式識別的一種方式,最終發(fā)現(xiàn)可以理解和學習的信息。同時,用于動態(tài)交互網(wǎng)絡的挖掘技術有路徑選擇、關聯(lián)分析、分類規(guī)則、聚類分析、序列分析和依賴性建模等。
2.3 模式分析
在動態(tài)交互網(wǎng)絡日志挖掘中,最重要的一項工作就是數(shù)據(jù)分析。它主要完成有用模式的算法發(fā)現(xiàn)和數(shù)據(jù)鏈的模式分析。在當前的電子商務系統(tǒng)中,模式發(fā)現(xiàn)和模式分析能夠實現(xiàn)大量用戶數(shù)據(jù)的價值發(fā)現(xiàn),利用挖掘的有效算法,能夠在日志數(shù)據(jù)快速變化的狀態(tài)下分析用戶的瀏覽狀況,并依據(jù)模式分析結果改進網(wǎng)頁內容,優(yōu)化用戶服務,從而提高用戶的興趣點,提升訪問量,解決數(shù)據(jù)大量、快速、多樣性變化的特點,以此獲取有效價值數(shù)據(jù)對交互網(wǎng)絡的影響。
3 在信息系統(tǒng)中的構建
3.1 網(wǎng)站設計
網(wǎng)站設計的主要內容包括以下幾點:①用戶訪問網(wǎng)站方式基于http協(xié)議;②動態(tài)交互網(wǎng)絡的服務多樣性;③依據(jù)用戶行為信息,挖掘有效價值鏈,產(chǎn)生具有特色的網(wǎng)絡交互行為,而數(shù)據(jù)頁面的引導表現(xiàn)出了便捷和快速的特點;④利用日志挖掘技術查詢用戶有價值信息,依據(jù)數(shù)據(jù)價值判斷、推算出潛在的數(shù)據(jù)連接和頁面訪問指向。
3.2 系統(tǒng)架構
該系統(tǒng)主要由4個功能模塊組成,即客戶端訪問模塊、數(shù)據(jù)訪問模塊、價值識別模塊和個性化服務模塊。
3.2.1 客戶端訪問模塊
客戶端訪問模塊主要用于處理客戶端的基本信息并識別用戶,其工作內容包括客戶端的登錄服務、識別用戶名和密碼。其中,登錄服務主要是完成用戶信息的修改和存儲。同時,用戶的不可修改信息也會被存儲和識別,比如MAC、IP瀏覽器版本號等。
3.2.2 數(shù)據(jù)訪問模塊
客戶端被訪問時會在服務器端和客戶端產(chǎn)生日志信息,而日志信息是數(shù)據(jù)預處理和模式識別的基礎。訪問日志模塊主要用于處理用戶行為記錄的各項信息,訪問信息具有大量、多樣和快捷的特點。日志信息包括訪問某一頁面的次數(shù)、訪問頁面的多個URL地址信息、用戶行為信息的判斷和大量數(shù)據(jù)保存方面的管理配置等。利用數(shù)據(jù)訪問模塊,可以識別和分析數(shù)據(jù),完成預處理工作。
3.2.3 價值識別模塊
網(wǎng)站的構成具備多網(wǎng)頁站點間多聯(lián)系、交互的特點,而網(wǎng)站數(shù)據(jù)具有多樣性和快捷性。網(wǎng)站要想顯示用戶興趣和行為,就要改進數(shù)據(jù)分析和識別模式。對用戶在網(wǎng)頁中停留的時間和搜索的信息內容等情況進行數(shù)據(jù)挖掘時,要結合用戶參與和識別的情況,建立適合用戶訪問興趣的信息推送,從而實現(xiàn)數(shù)據(jù)價值識別。
3.2.4 個性化服務模塊
個性化服務模塊是通過分析用戶訪問的數(shù)據(jù)分析來判斷用戶信息的興趣??蛻舳说卿浐螅罁?jù)數(shù)據(jù)分析和價值識別來搜索類庫中用戶的歷史信息,通過個性化服務進行推薦。模式分析的結果是不同興趣的用戶得到的不同數(shù)據(jù)頁面。
4 結束語
實踐證明,對動態(tài)交互網(wǎng)絡日志進行預處理,可以清理、過濾、組合無價值的記錄。在動態(tài)交互網(wǎng)絡日志中的數(shù)據(jù),可以利用數(shù)據(jù)挖掘相關算法,將其轉換為可識別的形式來挖掘關聯(lián)規(guī)則,并對用戶進行聚類和分類,挖掘出客戶端與地域、時間、頁面等相關內容的聯(lián)系,從而發(fā)現(xiàn)用戶訪問動態(tài)交互網(wǎng)絡頁面的模式,改進動態(tài)交互網(wǎng)絡站點的性能和組織結構,實現(xiàn)日志數(shù)據(jù)挖掘技術在用戶行為信息分析中的作用。
參考文獻
[1]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術[M].第二版.北京:電子工業(yè)出版社,2007.