劉云萍
摘 要: 為解決傳統(tǒng)挖掘方法進(jìn)行數(shù)據(jù)挖掘時(shí),存在規(guī)定時(shí)間范圍內(nèi)數(shù)據(jù)挖掘量少,導(dǎo)致挖掘效率不高的問(wèn)題,提出Apriori算法在無(wú)線網(wǎng)絡(luò)數(shù)據(jù)智能挖掘中的應(yīng)用研究。通過(guò)數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則設(shè)計(jì)、基于Apriori算法的無(wú)線網(wǎng)絡(luò)數(shù)據(jù)文本分類和無(wú)線網(wǎng)絡(luò)數(shù)據(jù)離群點(diǎn)智能過(guò)濾,實(shí)現(xiàn)無(wú)線網(wǎng)絡(luò)數(shù)據(jù)智能挖掘。通過(guò)實(shí)驗(yàn)證明,所提挖掘方法與傳統(tǒng)方法相比挖掘效率得到明顯提升。
關(guān)鍵詞: Apriori算法; 無(wú)線網(wǎng)絡(luò); 關(guān)聯(lián)規(guī)則; 智能挖掘
文章編號(hào): 2095-2163(2021)03-0113-02 中圖分類號(hào):TN911.1-34 文獻(xiàn)標(biāo)志碼:A
【Abstract】In order to solve the problem that the amount of data mining in the specified time range is small when the traditional mining method is used for data mining, which leads to low mining efficiency, this paper proposes the application research of Apriori algorithm in wireless network data intelligent mining. Through the design of data mining association rules, using text classification of wireless network data based on Apriori algorithm and intelligent filtering of wireless network data outliers, intelligent mining of wireless network data is realized. Experiments show that the mining efficiency of the proposed method is significantly improved compared with the traditional method.
【Key words】 Apriori algorithm; wireless network; association rules; intelligent mining
0 引 言
當(dāng)前,數(shù)據(jù)挖掘技術(shù)在各個(gè)領(lǐng)域中都有著十分廣泛的應(yīng)用,并逐漸成為具有較高價(jià)值意義的工程類工具和手段。大部分?jǐn)?shù)據(jù)挖掘過(guò)程中都會(huì)產(chǎn)生海量的數(shù)據(jù),因此導(dǎo)致計(jì)算量龐大,很難實(shí)現(xiàn)對(duì)數(shù)據(jù)的精準(zhǔn)挖掘,同時(shí)還會(huì)浪費(fèi)大量的時(shí)間[1]。目前的挖掘方法有著嚴(yán)重的局限性,在實(shí)際應(yīng)用過(guò)程中多會(huì)出現(xiàn)數(shù)據(jù)存儲(chǔ)中心寬帶消耗量大、數(shù)據(jù)易發(fā)生泄漏等問(wèn)題[2]。面對(duì)該問(wèn)題現(xiàn)狀,相關(guān)領(lǐng)域的研究人員逐漸將針對(duì)無(wú)線網(wǎng)絡(luò)中數(shù)據(jù)的挖掘方法作為主要研究?jī)?nèi)容。研究可知,Apriori算法能夠通過(guò)逐層迭代的方式找出不同環(huán)境當(dāng)中數(shù)據(jù)之間的關(guān)聯(lián),并進(jìn)一步推導(dǎo)出其規(guī)則。當(dāng)前Apriori算法應(yīng)用效果十分良好?;诖?,本文擬開展Apriori算法在無(wú)線網(wǎng)絡(luò)數(shù)據(jù)智能挖掘中的應(yīng)用研究。
1 基于Apriori算法的無(wú)線網(wǎng)絡(luò)數(shù)據(jù)智能挖掘方法設(shè)計(jì)
1.1 無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則設(shè)計(jì)
利用Apriori算法對(duì)無(wú)線網(wǎng)絡(luò)數(shù)據(jù)文本進(jìn)行分類前,要明確數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則。在實(shí)際挖掘時(shí),則要經(jīng)歷2次無(wú)線網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。第一次是在開始挖掘頻繁候選集階段,在此階段當(dāng)中,主要完成對(duì)頻繁項(xiàng)集的生成;第二次是挖掘頻繁候選集階段[3]。無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則設(shè)計(jì)流程可闡釋表述如下。
步驟1 將選取的無(wú)線網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分段處理,將其輸入到集群中的各個(gè)節(jié)點(diǎn)上,計(jì)算每一項(xiàng)的支持度。執(zhí)行相應(yīng)的程序后,獲取到本地?cái)?shù)據(jù),并輸入一個(gè)數(shù)據(jù)記錄[4]。
步驟2 是Apriori算法中最關(guān)鍵的一步。在mapper中輸入,將其與步驟1中的數(shù)值序列進(jìn)行比較,即可獲得相應(yīng)的結(jié)果。
步驟3 按照上述方法來(lái)分配節(jié)點(diǎn),將不同的無(wú)線網(wǎng)絡(luò)數(shù)據(jù)信息放置在不同的節(jié)點(diǎn)之上[5]。在此過(guò)程中,會(huì)出現(xiàn)同一時(shí)間,對(duì)應(yīng)的頻繁項(xiàng)集不處于同一節(jié)點(diǎn)上。針對(duì)這一問(wèn)題,運(yùn)用Apriori算法中默認(rèn)的對(duì)關(guān)鍵數(shù)值排序的功能,得到無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則。
1.2 基于Apriori算法的無(wú)線網(wǎng)絡(luò)數(shù)據(jù)文本分類
為實(shí)現(xiàn)對(duì)無(wú)線網(wǎng)絡(luò)中海量數(shù)據(jù)的挖掘,將編程思想作為基礎(chǔ),結(jié)合Apriori算法的設(shè)計(jì)原理,將無(wú)線網(wǎng)絡(luò)環(huán)境下的海量數(shù)據(jù)進(jìn)行重構(gòu),并完成對(duì)無(wú)線網(wǎng)絡(luò)數(shù)據(jù)文本的分類。在實(shí)際應(yīng)用中,單純使用 Apriori算法很難達(dá)到數(shù)據(jù)挖掘?qū)o(wú)線網(wǎng)絡(luò)文本分類的要求,因此,當(dāng)挖掘過(guò)程中文本經(jīng)常出現(xiàn)特定特征下的數(shù)據(jù)時(shí),會(huì)導(dǎo)致挖掘方法在應(yīng)用后產(chǎn)生大量的公共頻繁詞匯[6]。至此,為了能夠有效避免這一問(wèn)題的產(chǎn)生,本文在實(shí)際執(zhí)行Apriori算法時(shí),引入tf-idf算法,對(duì)無(wú)線網(wǎng)絡(luò)環(huán)境中每一個(gè)數(shù)據(jù)的權(quán)重進(jìn)行合理分配,再以此為基礎(chǔ),對(duì)無(wú)線網(wǎng)絡(luò)數(shù)據(jù)文本進(jìn)行分類,以此能夠有效保證分類結(jié)果的準(zhǔn)確性,同時(shí)也能夠進(jìn)一步加強(qiáng)Apriori算法應(yīng)用的實(shí)際意義。
1.3 無(wú)線網(wǎng)絡(luò)數(shù)據(jù)離群點(diǎn)智能過(guò)濾
在上述相關(guān)行為的支撐下,根據(jù)不同數(shù)據(jù)點(diǎn)的所屬簇組進(jìn)行研究[7]。分析不同簇組的核心數(shù)據(jù)值,對(duì)其簇組核心值進(jìn)行計(jì)算,評(píng)估計(jì)算結(jié)果,以此作為評(píng)價(jià)數(shù)據(jù)離群點(diǎn)是否為冗余數(shù)值。綜合上述分析,對(duì)數(shù)據(jù)離群點(diǎn)簇組核心值的計(jì)算公式可寫為:
2 對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文提出的基于Apriori算法的無(wú)線網(wǎng)絡(luò)數(shù)據(jù)智能挖掘方法在實(shí)際應(yīng)用中的效果,選擇某區(qū)域內(nèi)的無(wú)線局域網(wǎng)作為實(shí)驗(yàn)環(huán)境。對(duì)比本文方法與傳統(tǒng)挖掘方法的性能。本文選用數(shù)據(jù)挖掘量作為評(píng)價(jià)2種方法的指標(biāo),設(shè)置2種方法的挖掘時(shí)間分別為100 ms、500 ms、1 000 ms、2 000 ms和3 000 ms,在保證2種方法的挖掘時(shí)間相同的情況下,對(duì)其挖掘結(jié)果進(jìn)行記錄。2種挖掘方法的實(shí)驗(yàn)結(jié)果對(duì)比見表1。
根據(jù)表1中的數(shù)據(jù)結(jié)果可以看出,隨著挖掘時(shí)間的增加,本文挖掘方法的數(shù)據(jù)挖掘量增加幅度不斷變大,而傳統(tǒng)挖掘方法增加幅度較緩。在3 000 ms挖掘時(shí)間條件下,傳統(tǒng)挖掘方法并未完成相應(yīng)的挖掘任務(wù),挖掘量仍然停留在2 000 ms時(shí)間時(shí)的結(jié)果,已經(jīng)無(wú)法在該無(wú)線局域網(wǎng)環(huán)境下對(duì)更多的數(shù)據(jù)進(jìn)行挖掘。因此,通過(guò)對(duì)比實(shí)驗(yàn)證明,本文提出的基于Apriori算法的無(wú)線網(wǎng)絡(luò)數(shù)據(jù)智能挖掘方法效率更高,滿足海量數(shù)據(jù)的挖掘需要。
3 結(jié)束語(yǔ)
本文提出基于Apriori算法的無(wú)線網(wǎng)絡(luò)數(shù)據(jù)智能挖掘方法設(shè)計(jì)研究。將該方法付諸應(yīng)用能夠有效解決挖掘效率低、挖掘量有限的問(wèn)題。但由于研究時(shí)間的有限,本文僅針對(duì)無(wú)線網(wǎng)絡(luò)中的無(wú)線局域網(wǎng)進(jìn)行了研究,關(guān)于無(wú)線廣域網(wǎng)在使用本文挖掘方法時(shí)會(huì)有一定概率出現(xiàn)數(shù)據(jù)泄露問(wèn)題,后續(xù)還將進(jìn)行更加深入的研究。
參考文獻(xiàn)
[1]蘭濟(jì)樂,阮葉萍,蔣東曉. 基于數(shù)據(jù)挖掘和網(wǎng)絡(luò)藥理學(xué)的失眠中藥配方規(guī)律及作用機(jī)制研究[J]. 浙江中醫(yī)藥大學(xué)學(xué)報(bào),2020,44(12):1230-1238,1241.
[2] 周文靜,朱彥,郭怡含,等. 基于數(shù)據(jù)挖掘和網(wǎng)絡(luò)藥理學(xué)的丹參配伍規(guī)律及其防治冠心病作用機(jī)制研究[J]. 中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2020,26(11):1643-1648.
[3] 江佳琳,何靜玲,黎小斌. 基于數(shù)據(jù)挖掘及網(wǎng)絡(luò)藥理學(xué)探討中藥灌腸治療慢性盆腔炎的核心中藥及機(jī)制[J]. 廣州中醫(yī)藥大學(xué)學(xué)報(bào),2021,38(2):379-385.
[4] 邵臧杰,王盼盼,李紅,等. 基于數(shù)據(jù)挖掘及復(fù)雜網(wǎng)絡(luò)技術(shù)探討周仲瑛教授治療哮喘發(fā)作期經(jīng)驗(yàn)[J]. 中國(guó)中醫(yī)急癥,2020,29(10):1744-1748,1753.
[5] 黃羚,劉鐵鋼,白辰,等. 基于數(shù)據(jù)挖掘和網(wǎng)絡(luò)藥理學(xué)的谷曉紅教授治療小兒急性上呼吸道感染的研究[J]. 世界中醫(yī)藥,2020,15(20):3007-3013.
[6] 韋凌霞,丁茂鵬,王志旺,等. 基于數(shù)據(jù)挖掘及網(wǎng)絡(luò)藥理學(xué)方法探討含當(dāng)歸中藥復(fù)方抗肝纖維化的用藥規(guī)律及作用機(jī)制[J]. 中藥新藥與臨床藥理,2020,31(11):1323-1331.
[7] 王光耀,許光蘭,陳小麗,等. 基于數(shù)據(jù)挖掘和網(wǎng)絡(luò)藥理學(xué)的古方治療肺結(jié)核的用藥規(guī)律及機(jī)制分析[J]. 世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(7):2256-2268.