• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于XML的電子商務數(shù)據(jù)挖掘系統(tǒng)設計與實現(xiàn)

      2014-04-23 13:28:26謝少群
      電腦知識與技術 2014年7期
      關鍵詞:數(shù)據(jù)挖掘電子商務

      謝少群

      摘要:XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘的難題帶來了機會,由于XML能夠使不同來源的結構化數(shù)據(jù)結合在一起,使得搜索多樣的數(shù)據(jù)庫成為可能。該文設計了基于XML的Web日志挖掘系統(tǒng),通過日志挖掘實驗對電子商務網(wǎng)站的產(chǎn)品分布設置現(xiàn)狀進行分析與評價。

      關鍵詞:電子商務;數(shù)據(jù)挖掘;XML

      中圖分類號:TP313 文獻標識碼:A 文章編號:1009-3044(2014)07-1626-03

      數(shù)據(jù)庫領域最活躍的領域之一就是數(shù)據(jù)挖掘,因為其現(xiàn)實意義,使得數(shù)據(jù)挖掘的技術研究和應用有了很大的發(fā)展,在國內(nèi)外科研領域都備受關注。隨著Internet技術的快速發(fā)展,電子商務發(fā)展的同時使得網(wǎng)絡資源也隨之迅猛的增長。如何使電子商務用戶快速有效的利用所需資源,已經(jīng)成為電子商務網(wǎng)站設計者急需解決的問題。將數(shù)據(jù)挖掘技術用于電子商務管理中幾乎是從數(shù)據(jù)挖掘誕生就注定的,這與電子商務的特點是密切聯(lián)系的。在電子商務中應用數(shù)據(jù)挖掘技術具有極大的實用價值。[1]

      1 電子商務Web日志挖掘模型EC-Web-Mining設計

      1.1 基于XML的Web挖掘模型實現(xiàn)原理

      基于XML的Web挖掘模型的思想是把現(xiàn)有的Web頁面或Web日志經(jīng)過數(shù)據(jù)清洗轉換成XML格式,并使用數(shù)據(jù)庫工具處理XML 結構的數(shù)據(jù)以抽取出適當可用的數(shù)據(jù)。其主要步驟如下:

      1)標識數(shù)據(jù)源(Web頁面或Web日志)。在大多數(shù)情況下,數(shù)據(jù)源信息是易見的,但是要抽取可用的、可靠和穩(wěn)定的信息源就比較困難。

      2)查找數(shù)據(jù)的引用點。無論是Web 頁面還是WEB日志視圖中的絕大多數(shù)信息都與抽取信息無關,需從中抽取出我們需要的數(shù)據(jù)。

      3)將數(shù)據(jù)映射成XML。利用數(shù)據(jù)庫工具或算法將數(shù)據(jù)轉換成XML格式文檔。

      4)合并結果并處理數(shù)據(jù)。如果只執(zhí)行一次數(shù)據(jù)抽取,按照上述步驟已經(jīng)完成。但是,Web 數(shù)據(jù)挖掘是一個循環(huán)往復的過程,幾次簡單的數(shù)據(jù)抽取還沒有完成數(shù)據(jù)挖掘的任務。針對Web 數(shù)據(jù)挖掘的特殊性,要不斷地在Internet 上進行數(shù)據(jù)的抽取,并將結果合并為XML 數(shù)據(jù)文件,必要時還得將XML格式文件轉換為結構化的關系數(shù)據(jù)庫。[2]

      1.2 基于XML的Web挖掘模型

      3)用戶會話識別模塊

      用戶會話識別模塊將把清洗過的日志文件數(shù)據(jù)記錄識別成多個用戶,以方便利用挖掘算法進行挖掘。一般被采用的方法是基于日志/站點的方法。

      4) XML轉換模塊

      該模塊將預處理過、進行過用戶會話識別的日志文件轉換成XML格式的文件。主要是將清洗過的日志文件通過Visual C#代碼TxtToXml類轉換為XML格式的文件,程序的功能是先讀出日志文件里面的數(shù)據(jù),經(jīng)過分隔符將數(shù)據(jù)按字段分隔并存入到數(shù)組中,最后將各數(shù)組的內(nèi)容加XML標記一起寫入到生成的XML文件中。

      5) XML數(shù)據(jù)導入模塊

      該模塊將XML格式的文件數(shù)據(jù)通過SQL代碼導入到MS SQL Server2005的數(shù)據(jù)庫中,形成日志數(shù)據(jù)表以方便進行數(shù)據(jù)挖掘。主要包括XML文件格式的轉換導入和日志數(shù)據(jù)表的生成操作兩大功能。

      6) 數(shù)據(jù)挖掘模塊

      該模塊利用數(shù)據(jù)挖掘算法對數(shù)據(jù)進行挖掘,主要包括算法的優(yōu)化、日志數(shù)據(jù)表的刪除操作以及挖掘結果集的保存與刪除操作等。這里主要用到的算法是Apriori優(yōu)化算法—基于頻繁鏈表的頻繁集的挖掘算法[3],主要是利用Apriori算法發(fā)現(xiàn)頻繁項集,通過對頻繁項集的分析來得出電子商務網(wǎng)站中哪些產(chǎn)品是客戶最喜歡點擊和購買的,從而可以適當?shù)卣{(diào)整產(chǎn)品在網(wǎng)站中的分布,來提高銷售量。

      3 小結

      本文主要是研究基于Web數(shù)據(jù)挖掘技術的電子商務數(shù)據(jù)挖掘模型,主要的工作是對Web訪問信息挖掘技術進行了深入的研究,發(fā)現(xiàn)電子商務網(wǎng)站中用戶的訪問信息和在電子商務網(wǎng)站中針對用戶實現(xiàn)頁面合理布局。

      參考文獻:

      [1] Serge Abiteboul, Dallan Quass, Jason McHugh, et al. The Lorel Query Language for Semistructured Data[J]. International Journalon Digital Libraries,1997,1(4):68-88.

      [2] 張光輝.XML與Web 數(shù)據(jù)挖掘分析[J].中原工學院學報,2002,13(4):61-64.

      [3] 袁鼎榮,張師超.基于頻繁鏈表的頻繁集的挖掘算法[J].計算機科學,2003(7):165-166.

      猜你喜歡
      數(shù)據(jù)挖掘電子商務
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      《電子商務法》如何助力直銷
      電子商務
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      關于加快制定電子商務法的議案
      跨境電子商務中的跨文化思考
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      长宁区| 榆中县| 阿拉善左旗| 宜阳县| 定边县| 张北县| 绥棱县| 安顺市| 福海县| 乐业县| 基隆市| 花莲县| 河北区| 吐鲁番市| 泽普县| 灵台县| 姚安县| 金乡县| 涟水县| 武安市| 龙门县| 舞钢市| 万载县| 钦州市| 通州市| 砚山县| 长岛县| 会昌县| 隆化县| 盐山县| 呼图壁县| 玉环县| 苍山县| 莆田市| 毕节市| 邵阳县| 乌兰县| 吉安县| 牟定县| 济源市| 连江县|