• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Web網絡中的離群數據挖掘技術研究與改進

      2017-09-25 16:55:04翁佩純張遠海馬慧
      現(xiàn)代電子技術 2017年18期
      關鍵詞:BP神經網絡

      翁佩純+張遠海+馬慧

      摘 要: 離散數據在Web網絡中分布較廣,是造成數據挖掘有用信息容量低的主要原因?;艚鹚闺x散數據挖掘方法自提出以來獲得了很高的成就,但仍存在挖掘數據分類性能不高的缺點,在此,使用BP神經網絡對其進行改進?;艚鹚闺x散數據挖掘方法分離散數據掃描和離散信息挖掘兩個步驟進行,所提改進方法通過優(yōu)化原方法中離散數據的排序規(guī)律,挖掘最優(yōu)BP神經網絡連接節(jié)點權值集群,改進離散數據集群的正確分區(qū)能力,降低離散信息挖掘過程的時空復雜度,提高原方法的分類精度和分類效率。實驗結果表明,所提改進方法在Web網絡離散數據中能獲取高度可靠的挖掘結果。

      關鍵詞: Web網絡; 霍金斯離群數據挖掘; 改進的離散信息挖掘; BP神經網絡

      中圖分類號: TN711?34; TP301.6 文獻標識碼: A 文章編號: 1004?373X(2017)18?0029?03

      Research and improvement of outlier data mining technology in Web network

      WENG Peichun1, ZHANG Yuanhai2, MA Hui1

      (1. Zhongshan Institute, University of Electronic Science and Technology of China, Zhongshan 528400, China;

      2. Zhongshan Torch Polytechnic, Zhongshan 528403, China)

      Abstract: Discrete data has a wide distribution in the Web network, and is the main reason causing the low capacity of useful information. Since Hawkins discrete data mining method was put forward, it has been obtain a high achievement, but it still exists a fault that its data classification performance is not high. Therefore, the BP neural network is adopted to improve it. Hawkins discrete data mining method is divided into two steps: discrete data mining and discrete information mining. The improved method can optimize the discrete data sorting law of the original method, mine the optimal weight of BP neural network connecting node, improve the correct partition ability of discrete data cluster, reduce the time and space complexity in the process of discrete information mining, and improve the classification accuracy and classification efficiency of the original method. The experimental results show that the improved method can obtain highly reliable mining results in discrete data of Web network.

      Keywords: Web network; Hawkins outlier data mining; improved outlier data mining; BP neural network

      0 引 言

      在Web網絡與人工智能的發(fā)展進程中,產生了“數據挖掘”這種專門針對數據進行深層原理解析的研究技術。隨著網絡科技的不斷進步,Web網絡作為廣大網民收集知識的主要媒介,往往卻只能索引到不足30%數據容量的有用信息,在大部分網頁中顯示的均為無用動態(tài)信息,而且數據結構混亂、復雜,可借鑒性不高。離散數據在Web網絡中分布較廣,是造成數據挖掘有用信息容量低的主要原因。由于離散數據結構的相對孤立性和整體分散性,研究者霍金斯曾在1980年提出“離散數據與普通數據產生機理不相同”的理念,并展開Web網絡中離群數據挖掘方法的研究工作,在這一挖掘方法上進行改進,對網絡科技的發(fā)展具有很大的增益效果。

      1 Web網絡中的離群數據挖掘方法研究

      Web網絡中離散數據的定義是:“不符合既定數據規(guī)律的少數、異常性數據” [1],在計算誤差、設備運轉失誤或者傳輸偏差等網絡行為中均可能產生離散數據?;艚鹚乖谘芯恐邪l(fā)現(xiàn),幾乎每個離散數據都對應著Web網絡的異常行為或規(guī)則,是網絡防入侵、數據防異常的重要媒介。

      圖1是霍金斯離散數據挖掘方法的處理原理,在一個完整的離散數據挖掘流程內,網格細化法[2]是數據挖掘的重要處理方法。

      圖1 霍金斯離散數據挖掘方法原理圖

      在霍金斯離散數據挖掘方法的離散數據掃描過程中,需要對每個局部細化區(qū)間分別構建哈希查詢表,聚類數據獲取精度高,為高水準數據挖掘提供了可能。但是,離散信息挖掘的密度檢測過程沒能很好地將離散數據控制在一個Web節(jié)點最大負荷內,存儲挖掘信息時經常不能將同一聚類區(qū)間的離散信息放在一起,后續(xù)還需要進行比較復雜的分類處理[3]??梢?,霍金斯離散數據挖掘方法的缺點主要是時空復雜度大,式(1)是時空復雜度[O]的計算公式:

      [O=O(N)+O(n2)] (1)

      式中:[O(N)]是離散數據掃描的時空復雜度,與離散數據總量[N]有關;[O(n2)]是離散信息挖掘的時空復雜度;[n]是掃描結果數據總量。一般而言[n]遠小于[N],由于Web網絡中離散數據維度很高,故用[n2]進行維度校正[4?5]。在接下來的改進處理中,將對霍金斯離散數據挖掘方法中的[O(n2)]進行降低,主要是提高挖掘結果的分類精度和分類效率。

      2 霍金斯離散數據挖掘改進方法

      2.1 改進原理

      基于神經網絡的霍金斯離散數據挖掘改進方法的核心是BP神經網絡,所使用的改進原理是挖掘最優(yōu)的關聯(lián)網絡連接點權值集群,得到挖掘結果后直接將其存儲在原聚類區(qū)間。BP神經網絡先任意設置權值集群內的數據點,數據大小區(qū)間[6]為(-1,1),權值控制方法通過修正權值梯度訓練BP神經網絡離散數據聚類結構,并且梯度修正也可以減少分類誤差的產生。

      設Web網絡離散數據維度為[m],BP神經網絡隱含層關聯(lián)節(jié)點有[k]個,聚類區(qū)間用[C]表示,關聯(lián)節(jié)點上的聚類區(qū)間表示為[C1,C2,…,Ck]。用初始權值劃分聚類區(qū)間,對聚類區(qū)間中的離散數據進行訓練,使得BP神經網絡輸入層和輸出層中的離散數據與挖掘結果具有一一對應關系。BP神經網絡隱含層上的節(jié)點處于休眠狀態(tài)[7],需要對其進行激活,激活方式是把輸入層連接權值串聯(lián)成一個非線性驅動函數,計算結果用來激活休眠節(jié)點。將輸入層第[i]個節(jié)點與隱含層第[k]個節(jié)點的連接權值表示為[wki],[1≤i≤k],設離散集群數據在輸入層中的輸入值為[Xi],則非線性驅動函數可表示為:

      [ak=fi=1mwkiXi-tk] (2)

      式中:[tk]表示隱含層第[k]個節(jié)點的偏置延時,能夠實現(xiàn)大量離散數據在小范圍上的信息映射;函數[f[·]]是曲面切面函數,設函數參量為[x],則[f[]]表示式為:

      [f[x]=ex-e-xex+e-x] (3)

      當隱含層所有節(jié)點都擺脫休眠狀態(tài)后,BP神經網絡輸出層第[p]個節(jié)點將輸出:

      [Sp=nσp=1akvkp] (4)

      式中:[σ[]]是輸出層節(jié)點的休眠破壞函數,取值為[1ex+e-x];[vkp]是第[p]個輸出層與第[k]個隱含層之間連接節(jié)點的權值。為了令Web網絡挖掘信息能夠被正確地分區(qū)域并存儲起來,BP神經網絡三個層次之間的權值應符合式(5)給出的條件:

      [maxwki-vkp≤η] (5)

      式中,[η]為閾值。當[Xi]位于首聚類區(qū)間[C1],[η=0.5];當[Xi]位于尾聚類區(qū)間[Ck],[η=1];其他情況下,[η=0]。

      在此基礎上,通過BP神經網絡為霍金斯離散數據挖掘方法搜尋一個最優(yōu)關聯(lián)網絡連接點權值集群。權值集群搜尋誤差應先置于最小值,從而降低挖掘結果分類誤差。式(6)是權值集群搜尋誤差[E]的定義式,為了獲取其最小值,設置式(7)所示的誤差補償函數,對不同聚類區(qū)間之間的交接點進行模糊化處理。使用[E]的最小值設置權值集群,可獲取較高的Web網絡離群數據挖掘精度。隨后開始進行Web網絡集群數據挖掘結果的分類,如式(8)所示。

      [E=-i=1mp=1k{(tklogSp+tk-1)[log(1-Sp)]}] (6)

      [P=ε1i=1kp=1kβ(wki)21+β(wki)2+ε2i=1kp=1kβ(vkp)21+β(vkp)2+ ε2i=1kp=1k(wki)2+i=1kp=1k(vkp)2] (7)

      [Ck=xi,k-xp,k×n-Sp] (8)

      式中:[ε1],[ε2]分別表示正、負權值的衰減變量;[β]為初始權值;[xi,k],[xp,k]分別表示輸入層與隱含層、隱含層與輸出層之間的離散數據聚類關聯(lián)度。

      2.2 改進方法基本要求

      從第2.1節(jié)的函數推導中可以看出,基于BP神經網絡的霍金斯離散數據挖掘改進方法能夠優(yōu)化原方法中離散數據的排序規(guī)律,使得數據挖掘精度可輕而易舉地滿足用戶需求。圖2對所提方法的改進流程進行了總結。因為BP神經網絡在使用之前需要訓練數據樣本,這會消耗一定的時間,所以直接在輸入層輸入任意一次的霍金斯離散數據挖掘結果進行訓練,但挖掘結果維度必須滿足以下要求:高維度數據必須易于降維;離散數據屬性可隨意進行剔除和歸一化操作。

      根據用戶對挖掘效率的要求,將挖掘結果降維并進行無用屬性剔除和全局歸一化,輸入BP神經網絡,經輸出層輸出離散數據聚類關聯(lián)度,作為訓練樣本使用。按照關聯(lián)度順序激活隱含層和輸出層的休眠節(jié)點,使輸入層中的離散數據能夠流通,從而獲取最優(yōu)關聯(lián)網絡連接點權值集群,提高挖掘結果的分類精度和分類效率,使霍金斯離散數據挖掘方法的時空復雜度得以降低。

      3 實驗分析

      本次實驗使用Web網絡中的真實離散數據,所選類型是籃球比賽中與得分有關的離散數據,由于不同球員身體素質和得分技巧不同,每個球員均可看成不同離散度的離散數據集群,其數據屬性關聯(lián)度和權值集群也各不相同。使用本文所提基于BP神經網絡的霍金斯離散數據挖掘改進方法對5名球員在Web網絡中離散數據進行數據挖掘,分配球員上場時間。通過計算機建立云計算虛擬環(huán)境,分析這個分配方案在籃球比賽中的可靠性,如表1所示。

      表1中,成功得分率等于球員投籃成功率減去違規(guī)率的,得分增益是指本文改進方法比賽得分相對于原籃球比賽得分的增加值。由表1可知,本文方法所提分配方案共能夠得到27分的得分增益,這對籃球比賽來說是一個較大的比分差距,表明本文方法能獲取高度可靠的挖掘結果。

      4 結 論

      本文提出一種借助BP神經網絡對霍金斯離散數據挖掘方法進行改進的方法。通過學習Web網絡中的離散數據行為,搜尋到BP神經網絡最優(yōu)關聯(lián)網絡連接點權值集群,使用這個集群管理離群數據挖掘結果的存儲區(qū)間,對霍金斯離散數據挖掘方法的分類性能進行提高。最后,實驗使用Web網絡中的真實離散數據分析出本文所提改進方法是高度可靠的。

      注:本文通訊作者為張遠海。

      參考文獻

      [1] 黃宏本.基于改進關聯(lián)規(guī)則的危險Web信息挖掘技術研究[J].現(xiàn)代電子技術,2016,39(6):14?17.

      [2] 李平.網絡安全防范與Web數據挖掘技術的整合研究[J].信息安全與技術,2016,7(8):63?65.

      [3] 施佺,錢源,孫玲.基于教育數據挖掘的網絡學習過程監(jiān)管研究[J].現(xiàn)代教育技術,2016,26(6):87?93.

      [4] 鐘旭東,黃章進,顧乃杰,等.Web文本分類中的標簽權重自動優(yōu)化研究[J].小型微型計算機系統(tǒng),2016,37(5):890?894.

      [5] 田秀娟.網絡環(huán)境中不完整數據挖掘方法研究與仿真[J].計算機仿真,2016,33(10):454?457.

      [6] 李建林,籍天明,孔令達,等.光伏發(fā)電數據挖掘中的跨度選取[J].電工技術學報,2015,30(14):450?456.

      [7] 張繼榮,王向陽.基于X ML數據挖掘的Apriori算法的研究與改進[J].計算機測量與控制,2016,24(6):178?180.endprint

      猜你喜歡
      BP神經網絡
      基于神經網絡的北京市房價預測研究
      商情(2016年43期)2016-12-23 14:23:13
      一種基于OpenCV的車牌識別方法
      軟件導刊(2016年11期)2016-12-22 22:01:20
      基于遺傳算法—BP神經網絡的乳腺腫瘤輔助診斷模型
      軟件導刊(2016年11期)2016-12-22 21:53:59
      一種基于改進BP神經網絡預測T/R組件溫度的方法
      基于BP神經網絡的光通信系統(tǒng)故障診斷
      科技視界(2016年26期)2016-12-17 17:57:49
      提高BP神經網絡學習速率的算法研究
      考試周刊(2016年21期)2016-12-16 11:02:03
      就bp神經網絡銀行選址模型的相關研究
      基于DEA—GA—BP的建設工程評標方法研究
      價值工程(2016年30期)2016-11-24 13:17:31
      基于BP神經網絡的旅行社發(fā)展方向研究
      商情(2016年39期)2016-11-21 09:30:36
      復雜背景下的手勢識別方法
      曲麻莱县| 济南市| 阜宁县| 五寨县| 尉氏县| 常州市| 苗栗市| 定南县| 环江| 商河县| 罗江县| 中阳县| 福鼎市| 眉山市| 绥棱县| 武夷山市| 和政县| 东乡| 英山县| 高唐县| 宁波市| 琼海市| 海南省| 吉水县| 荣成市| 天津市| 佛教| 晋中市| 宁南县| 会泽县| 南澳县| 化州市| 江安县| 娱乐| 二连浩特市| 四平市| 海兴县| 姚安县| 璧山县| 青海省| 闵行区|