• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大型數(shù)據(jù)庫的關(guān)聯(lián)挖掘算法設(shè)計分析

      2018-11-20 10:50:58霍英哲王群尹曉華于海李峰
      世界家苑 2018年11期
      關(guān)鍵詞:關(guān)聯(lián)規(guī)則

      霍英哲 王群 尹曉華 于海 李峰

      摘 要:當(dāng)今,數(shù)據(jù)容量規(guī)模的擴(kuò)大,導(dǎo)致數(shù)據(jù)規(guī)模擴(kuò)大、復(fù)雜化,人們無法快速找到感興趣的數(shù)據(jù),對于此類爆炸式增長的數(shù)據(jù),人們進(jìn)行數(shù)據(jù)處理以及數(shù)據(jù)分析的能力非常有限。因此,數(shù)據(jù)挖掘技術(shù)得到了廣泛重視及深入研究,逐步成為重要研究領(lǐng)域。

      關(guān)鍵詞:大型數(shù)據(jù)庫;關(guān)聯(lián)規(guī)則;挖掘算法;關(guān)聯(lián)挖掘

      數(shù)據(jù)挖掘即從大量不完全、有噪聲、模糊隨機(jī)數(shù)據(jù)中獲取包含有人們事先不知道又潛在有用信息及知識處理進(jìn)程。該方法之所以被稱為未來信息處理重要技術(shù)之一,關(guān)鍵是它以一種全新概念轉(zhuǎn)變著人類使用數(shù)據(jù)的模式。但數(shù)據(jù)庫技術(shù)作為一種最基礎(chǔ)的信息儲存及管理形式,依舊以聯(lián)機(jī)事務(wù)處理為重點使用,對決策、解析、預(yù)測等高級性能的支持技術(shù)較少。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個重要分支,廣泛應(yīng)用在多個領(lǐng)域,如數(shù)據(jù)分析、數(shù)據(jù)庫設(shè)計、倉儲規(guī)劃、網(wǎng)絡(luò)故障解析等,導(dǎo)致已有的數(shù)據(jù)庫規(guī)模迅速擴(kuò)大,對大規(guī)模數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘的研究成為了該領(lǐng)域具備關(guān)鍵理論價值及現(xiàn)實意義事件。對此,提出并設(shè)計了基于貝葉斯信息標(biāo)準(zhǔn)BIC評分函數(shù)的大型數(shù)據(jù)庫關(guān)聯(lián)挖掘算法。

      1數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)分析

      在對大型數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)挖掘過程中,其數(shù)據(jù)庫的獲取及數(shù)據(jù)預(yù)處理是影響關(guān)聯(lián)挖掘的關(guān)鍵步驟。對此,在數(shù)據(jù)庫獲取后,對數(shù)據(jù)進(jìn)行預(yù)處理過程中,采用自適應(yīng)函數(shù)對其進(jìn)行分析,提高大型數(shù)據(jù)庫數(shù)據(jù)性能,為進(jìn)行關(guān)聯(lián)挖掘提供基礎(chǔ)依據(jù)。

      1.1數(shù)據(jù)庫獲取分析

      數(shù)據(jù)庫還原模塊在運行時,首先將運行環(huán)境初始化,包括環(huán)境變量初始化、配置文件初始化、公共變量和數(shù)據(jù)緩存初始化。然后進(jìn)行網(wǎng)絡(luò)設(shè)備初始化,最后創(chuàng)建數(shù)據(jù)庫還原模塊的工作線程,包括數(shù)據(jù)流還原線程、攔截數(shù)據(jù)包線程和數(shù)據(jù)包處理分析調(diào)度線程。攔截數(shù)據(jù)包線程的主要功能是攔截網(wǎng)上的數(shù)據(jù)包,數(shù)據(jù)流還原線程的主要功能是還原網(wǎng)絡(luò)數(shù)據(jù)包,并將還原結(jié)果存入數(shù)據(jù)庫還原模塊的數(shù)據(jù)庫中。數(shù)據(jù)包處理分析調(diào)度線程主要對不同的數(shù)據(jù)包進(jìn)行調(diào)度。數(shù)據(jù)獲取中主要獲取內(nèi)容是相關(guān)數(shù)據(jù)來源記錄信息、具體數(shù)據(jù)特征、獲取數(shù)據(jù)所需時間等。實現(xiàn)這一目標(biāo)的方式有很多種,其主要依據(jù)是借助各種途徑,對數(shù)據(jù)進(jìn)行采集。

      1.2數(shù)據(jù)庫關(guān)聯(lián)

      數(shù)據(jù)預(yù)處理數(shù)據(jù)庫數(shù)據(jù)量較大,若要增加挖掘效率,實現(xiàn)挖掘的目的,要對數(shù)據(jù)提前進(jìn)行一定處理,即預(yù)處理,重點包括數(shù)據(jù)采集、整理、選擇、轉(zhuǎn)存等流程。在數(shù)據(jù)整理方面,重點是對具有冗余特征的數(shù)據(jù)刪除、對類似數(shù)據(jù)項進(jìn)行合并、篩查修正數(shù)據(jù)信息等。在此之后進(jìn)行集體的篩選處理,把來自不同源點的數(shù)據(jù)匯集起來,對數(shù)據(jù)進(jìn)行篩查,找出適合搜尋需求的數(shù)據(jù)種類。最后對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,把最終得到的數(shù)據(jù)對應(yīng)地進(jìn)行適應(yīng)度函數(shù)調(diào)整、轉(zhuǎn)變成更適合使用的格式,方便進(jìn)行關(guān)聯(lián)挖掘解析。在進(jìn)行關(guān)聯(lián)數(shù)據(jù)預(yù)處理過程中,把網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)作為最優(yōu)化問題,對挖掘目標(biāo)進(jìn)行搜索評分。

      對此采用較為常用的評分函數(shù)有貝葉斯信息標(biāo)準(zhǔn)BIC評分函數(shù),對數(shù)據(jù)進(jìn)行預(yù)處理。該評分函數(shù)具備以下幾個優(yōu)點[9]:一是不依附先驗概率,不對先驗概率分布情況進(jìn)行估計;二是在樣本集合過大時,能夠近似地對后驗概率進(jìn)行驗證;三是在沒有規(guī)定多項式分布及Dirichlet先驗概率情況下,和MDL測度取負(fù)號的結(jié)果近似相等。因此,在本算法中使用BIC評分函數(shù)作為適應(yīng)度函數(shù),并認(rèn)為BIC的得分越高,適應(yīng)度越好,為后續(xù)的關(guān)聯(lián)挖掘提供基礎(chǔ)。在數(shù)據(jù)關(guān)聯(lián)挖掘中,若每個部分均要給出相應(yīng)的挖掘規(guī)則、頻繁集等,則需對選取范圍進(jìn)行確認(rèn),并建立對應(yīng)向量,采用普通的安全多方循環(huán)協(xié)議進(jìn)行集合的合并。為了增加預(yù)處理的安全性能,采用基于可交換密鑰順序方法進(jìn)行安全加密處理。在共享的狀況下,能夠采用其余方式進(jìn)行可交換加密。

      2關(guān)聯(lián)挖掘算法優(yōu)化研究

      在進(jìn)行大數(shù)據(jù)關(guān)聯(lián)挖掘算法優(yōu)化過程中,首先對數(shù)據(jù)進(jìn)行一次掃描,搜出整體的頻繁1_項集;然后對搜出的頻繁1_項集進(jìn)行組合,依次產(chǎn)生頻繁2_項集、頻繁3_項集等。關(guān)聯(lián)挖掘算法優(yōu)化流程圖如圖1所示。

      3系統(tǒng)性能測試

      3.1系統(tǒng)性能評估方法

      實驗采用系統(tǒng)仿真的方式對算法有效性進(jìn)行驗證,實驗環(huán)境如下。系統(tǒng)硬件采用4核1.66GHz的CPU;RAM10GB。系統(tǒng)操作系統(tǒng)采用Windows2010Server;源數(shù)據(jù)庫使用默認(rèn).dat二進(jìn)制的數(shù)據(jù);輸出文件為.txt文本文件;以VC++6.0sp6編制為實驗程序;實驗期間斷開網(wǎng)絡(luò)連接,防止出現(xiàn)誤差;每一次實驗后對系統(tǒng)內(nèi)存進(jìn)行整理,讓每一次程序運行環(huán)境盡量統(tǒng)一。準(zhǔn)確率在算法驗證過程中,將某一興趣類別產(chǎn)生的數(shù)據(jù)進(jìn)行正確的判定,而得到的總和百分比才是最終的準(zhǔn)確率。準(zhǔn)確率與出錯率成反比,即當(dāng)錯誤率降低時,準(zhǔn)確率提高,表示用戶的挖掘效率越高。

      3.2結(jié)果分析

      準(zhǔn)確率對比結(jié)果如圖2所示。

      圖2 準(zhǔn)確率對比結(jié)果分析

      由圖2可知,采用傳統(tǒng)挖掘算法進(jìn)行數(shù)據(jù)庫挖掘時,在時間不定的情況下,其挖掘準(zhǔn)確率隨著時間的增加出現(xiàn)下降的趨勢,準(zhǔn)確率最高達(dá)到73.4%,最低為50.8%,平均準(zhǔn)確率約為56.4%;采用改進(jìn)方法時,隨著時間的增加,其挖掘準(zhǔn)確率具有上升趨勢,準(zhǔn)確率最高達(dá)到99.4%,最低為80.1%,平均值約為91.3%,相比傳統(tǒng)挖掘算法提高了約34.9%,具有一定的優(yōu)勢。

      4結(jié)論

      針對傳統(tǒng)挖掘算法一直存在挖掘準(zhǔn)確率低、效率差的問題,提出基于貝葉斯信息標(biāo)準(zhǔn)BIC評分函數(shù)的大型數(shù)據(jù)庫關(guān)聯(lián)挖掘算法。實驗結(jié)果表明,采用改進(jìn)算法相比傳統(tǒng)挖掘算法準(zhǔn)確率提高了約34.9%,具有顯著優(yōu)勢。

      參考文獻(xiàn)

      [1] 何佩佩. 云環(huán)境下數(shù)據(jù)挖掘算法的研究與設(shè)計[D]. 東華大學(xué),2016.

      [2] 謝笑盈,徐應(yīng)濤,張瑩. 基于抽樣學(xué)習(xí)的關(guān)聯(lián)挖掘算法設(shè)計[J]. 浙江師范大學(xué)學(xué)報(自然科學(xué)版),2018(1).

      [3] 張全紅. 面向大數(shù)據(jù)的關(guān)聯(lián)規(guī)則算法研究[D]. 西安科技大學(xué),2017.

      (作者單位:國網(wǎng)遼寧省電力有限公司信息通信分公司)

      猜你喜歡
      關(guān)聯(lián)規(guī)則
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
      基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用
      工業(yè)大數(shù)據(jù)挖掘分析及應(yīng)用前景研究
      基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
      基于關(guān)聯(lián)規(guī)則和時間閾值算法的5G基站部署研究
      移動通信(2016年20期)2016-12-10 09:09:04
      關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
      數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價體系中的應(yīng)用
      關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
      中國市場(2016年36期)2016-10-19 04:10:44
      基于關(guān)聯(lián)規(guī)則的計算機(jī)入侵檢測方法
      基于關(guān)聯(lián)規(guī)則的中醫(yī)肺癌數(shù)據(jù)挖掘應(yīng)用研究
      科技視界(2016年12期)2016-05-25 11:09:58
      武冈市| 团风县| 科尔| 虹口区| 河东区| 靖远县| 灵石县| 隆化县| 神木县| 青岛市| 滦平县| 广宗县| 万宁市| 淮安市| 桐梓县| 漠河县| 马尔康县| 博客| 东乌珠穆沁旗| 安康市| 长春市| 兴隆县| 罗平县| 竹北市| 利辛县| 揭阳市| 玉门市| 广丰县| 邵阳县| 宜宾县| 聂荣县| 墨江| 疏勒县| 关岭| 明水县| 胶南市| 龙岩市| 竹溪县| 兴安县| 封丘县| 滁州市|