• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于網(wǎng)絡日志挖掘技術數(shù)據(jù)信息分析的研究

      2015-05-04 23:13:51付生
      科技與創(chuàng)新 2015年6期
      關鍵詞:信息檢索數(shù)據(jù)分析

      付生

      摘 要:對網(wǎng)絡日志挖掘技術數(shù)據(jù)信息分析的研究,是動態(tài)交互網(wǎng)絡使用數(shù)據(jù)挖掘的一種技術實現(xiàn)。通過挖掘動態(tài)交互網(wǎng)絡日志,可以查找用戶訪問動態(tài)交互網(wǎng)絡的瀏覽方式和習慣性行為,并依據(jù)數(shù)據(jù)挖掘分析和研究動態(tài)交互網(wǎng)絡日志記錄中的規(guī)律,判斷數(shù)據(jù)價值鏈與組織結構的適應性問題,從而提高信息查找的快速指向性和信息檢索的高效性,并利用統(tǒng)計和關聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內在聯(lián)系。

      關鍵詞:日志挖掘;數(shù)據(jù)分析;信息檢索;網(wǎng)絡日志

      中圖分類號:TP311.13 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2015.06.068

      1 日志數(shù)據(jù)挖掘

      動態(tài)交互網(wǎng)絡獲取信息的過程存在站點訪問的跳躍性和無序性,數(shù)據(jù)信息指向是呈布朗運動分布的。超文本鏈接的跳轉過程具有一定的普遍性,并且還有數(shù)據(jù)存量大、數(shù)據(jù)更替快等大數(shù)據(jù)4V特點。挖掘規(guī)律即是動態(tài)交互網(wǎng)絡用戶訪問信息發(fā)現(xiàn)的重要研究內容。動態(tài)交互網(wǎng)絡日志挖掘是對大量用戶行為和數(shù)據(jù)價值有效性的判斷,該判斷是經(jīng)過數(shù)據(jù)的預處理、數(shù)據(jù)模式識別和模式分析3個過程實現(xiàn)的。

      2 動態(tài)交互網(wǎng)絡日志挖掘的過程

      對于動態(tài)交互網(wǎng)絡日志挖掘,首先要研究和分析網(wǎng)絡日志記錄信息存在的變化和特點,進而實現(xiàn)數(shù)據(jù)的預處理過程。另外,要識別用戶信息,提高對用戶價值信息的服務質量,改進動態(tài)交互網(wǎng)絡服務系統(tǒng)的數(shù)據(jù)信息判斷和組織結構。

      2.1 數(shù)據(jù)預處理

      在動態(tài)交互網(wǎng)絡日志文件記錄中,存儲的是用戶訪問站點信息的原始記錄,而原始記錄的數(shù)據(jù)具有多樣性和大量性,所以,直接從數(shù)據(jù)中挖掘其有效價值存在不確定性和一定的困難。在借助一定的算法和工具分析數(shù)據(jù)時,必須要對數(shù)據(jù)進行預處理。預處理過程是指對數(shù)據(jù)質量、數(shù)據(jù)的多樣性和量級進行處理,這會直接影響數(shù)據(jù)挖掘的結果,還會影響數(shù)據(jù)價值存在的判斷。對于數(shù)據(jù)訪問量小、數(shù)據(jù)多樣性單一的網(wǎng)絡日志信息,數(shù)據(jù)處理的準確性具有非常重要的意義。日志預處理主要是通過數(shù)據(jù)凈化、用戶識別、會話識別和數(shù)據(jù)合并4個過程實現(xiàn)的。

      2.2 數(shù)據(jù)模式發(fā)現(xiàn)

      利用數(shù)據(jù)挖掘相關算法是實現(xiàn)對網(wǎng)絡日志中隱藏的、重復的、大量有用的或者無用的信息進行數(shù)據(jù)模式識別的一種方式,最終發(fā)現(xiàn)可以理解和學習的信息。同時,用于動態(tài)交互網(wǎng)絡的挖掘技術有路徑選擇、關聯(lián)分析、分類規(guī)則、聚類分析、序列分析和依賴性建模等。

      2.3 模式分析

      在動態(tài)交互網(wǎng)絡日志挖掘中,最重要的一項工作就是數(shù)據(jù)分析。它主要完成有用模式的算法發(fā)現(xiàn)和數(shù)據(jù)鏈的模式分析。在當前的電子商務系統(tǒng)中,模式發(fā)現(xiàn)和模式分析能夠實現(xiàn)大量用戶數(shù)據(jù)的價值發(fā)現(xiàn),利用挖掘的有效算法,能夠在日志數(shù)據(jù)快速變化的狀態(tài)下分析用戶的瀏覽狀況,并依據(jù)模式分析結果改進網(wǎng)頁內容,優(yōu)化用戶服務,從而提高用戶的興趣點,提升訪問量,解決數(shù)據(jù)大量、快速、多樣性變化的特點,以此獲取有效價值數(shù)據(jù)對交互網(wǎng)絡的影響。

      3 在信息系統(tǒng)中的構建

      3.1 網(wǎng)站設計

      網(wǎng)站設計的主要內容包括以下幾點:①用戶訪問網(wǎng)站方式基于http協(xié)議;②動態(tài)交互網(wǎng)絡的服務多樣性;③依據(jù)用戶行為信息,挖掘有效價值鏈,產(chǎn)生具有特色的網(wǎng)絡交互行為,而數(shù)據(jù)頁面的引導表現(xiàn)出了便捷和快速的特點;④利用日志挖掘技術查詢用戶有價值信息,依據(jù)數(shù)據(jù)價值判斷、推算出潛在的數(shù)據(jù)連接和頁面訪問指向。

      3.2 系統(tǒng)架構

      該系統(tǒng)主要由4個功能模塊組成,即客戶端訪問模塊、數(shù)據(jù)訪問模塊、價值識別模塊和個性化服務模塊。

      3.2.1 客戶端訪問模塊

      客戶端訪問模塊主要用于處理客戶端的基本信息并識別用戶,其工作內容包括客戶端的登錄服務、識別用戶名和密碼。其中,登錄服務主要是完成用戶信息的修改和存儲。同時,用戶的不可修改信息也會被存儲和識別,比如MAC、IP瀏覽器版本號等。

      3.2.2 數(shù)據(jù)訪問模塊

      客戶端被訪問時會在服務器端和客戶端產(chǎn)生日志信息,而日志信息是數(shù)據(jù)預處理和模式識別的基礎。訪問日志模塊主要用于處理用戶行為記錄的各項信息,訪問信息具有大量、多樣和快捷的特點。日志信息包括訪問某一頁面的次數(shù)、訪問頁面的多個URL地址信息、用戶行為信息的判斷和大量數(shù)據(jù)保存方面的管理配置等。利用數(shù)據(jù)訪問模塊,可以識別和分析數(shù)據(jù),完成預處理工作。

      3.2.3 價值識別模塊

      網(wǎng)站的構成具備多網(wǎng)頁站點間多聯(lián)系、交互的特點,而網(wǎng)站數(shù)據(jù)具有多樣性和快捷性。網(wǎng)站要想顯示用戶興趣和行為,就要改進數(shù)據(jù)分析和識別模式。對用戶在網(wǎng)頁中停留的時間和搜索的信息內容等情況進行數(shù)據(jù)挖掘時,要結合用戶參與和識別的情況,建立適合用戶訪問興趣的信息推送,從而實現(xiàn)數(shù)據(jù)價值識別。

      3.2.4 個性化服務模塊

      個性化服務模塊是通過分析用戶訪問的數(shù)據(jù)分析來判斷用戶信息的興趣??蛻舳说卿浐螅罁?jù)數(shù)據(jù)分析和價值識別來搜索類庫中用戶的歷史信息,通過個性化服務進行推薦。模式分析的結果是不同興趣的用戶得到的不同數(shù)據(jù)頁面。

      4 結束語

      實踐證明,對動態(tài)交互網(wǎng)絡日志進行預處理,可以清理、過濾、組合無價值的記錄。在動態(tài)交互網(wǎng)絡日志中的數(shù)據(jù),可以利用數(shù)據(jù)挖掘相關算法,將其轉換為可識別的形式來挖掘關聯(lián)規(guī)則,并對用戶進行聚類和分類,挖掘出客戶端與地域、時間、頁面等相關內容的聯(lián)系,從而發(fā)現(xiàn)用戶訪問動態(tài)交互網(wǎng)絡頁面的模式,改進動態(tài)交互網(wǎng)絡站點的性能和組織結構,實現(xiàn)日志數(shù)據(jù)挖掘技術在用戶行為信息分析中的作用。

      參考文獻

      [1]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術[M].第二版.北京:電子工業(yè)出版社,2007.

      猜你喜歡
      信息檢索數(shù)據(jù)分析
      基于同態(tài)加密支持模糊查詢的高效隱私信息檢索協(xié)議
      我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
      體育時空(2016年8期)2016-10-25 18:02:39
      Excel電子表格在財務日常工作中的應用
      淺析大數(shù)據(jù)時代背景下的市場營銷策略
      新常態(tài)下集團公司內部審計工作研究
      中國市場(2016年36期)2016-10-19 04:31:23
      淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
      基于讀者到館行為數(shù)據(jù)分析的高校圖書館服務優(yōu)化建議
      科技視界(2016年22期)2016-10-18 14:37:36
      醫(yī)學期刊編輯中文獻信息檢索的應用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      在網(wǎng)絡環(huán)境下高職院校開設信息檢索課的必要性研究
      新聞傳播(2016年11期)2016-07-10 12:04:01
      基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究
      邯郸市| 宜宾市| 纳雍县| 固镇县| 延庆县| 太原市| 乌什县| 郎溪县| 南昌市| 仪征市| 百色市| 海原县| 长泰县| 洛阳市| 锡林浩特市| 桓台县| 宝山区| 南京市| 崇明县| 陵川县| 新乐市| 朝阳区| 淮安市| 梨树县| 沈阳市| 夹江县| 宁陕县| 英德市| 资阳市| 仙居县| 闽侯县| 阿坝县| 大邑县| 闵行区| 澄迈县| 宝坻区| 威信县| 疏勒县| 兴业县| 荥经县| 闵行区|