【摘 要】數(shù)據(jù)挖掘是處理大批量數(shù)據(jù)常用的手段,為了進(jìn)一步掌握數(shù)據(jù)的發(fā)展規(guī)律,筆者基于微分?jǐn)?shù)學(xué)模型開(kāi)展了數(shù)據(jù)挖掘方法的設(shè)計(jì),按照微分?jǐn)?shù)學(xué)模型中的聯(lián)合分布函數(shù)以及隨機(jī)分布函數(shù),構(gòu)建數(shù)據(jù)的高緯度相空間,并以數(shù)學(xué)模型中微分?jǐn)?shù)據(jù)的存儲(chǔ)節(jié)點(diǎn)為特征獲取依據(jù),獲取矢量數(shù)據(jù)集合的特征。為了減少數(shù)據(jù)擬合的工作量,在完成數(shù)據(jù)收集的基礎(chǔ)上,進(jìn)行空間維度的調(diào)整,將高緯度矩陣轉(zhuǎn)變?yōu)榈途暥染仃?。在?shù)據(jù)收斂的作用下,通過(guò)對(duì)信息測(cè)度的調(diào)控,采用高斯核函數(shù)進(jìn)行離散數(shù)據(jù)流挖掘,以此完成數(shù)據(jù)挖掘方法的設(shè)計(jì)。此外,提出仿真實(shí)驗(yàn),建立實(shí)驗(yàn)仿真操作平臺(tái),使提出驗(yàn)證的方法更具備有效性,不僅對(duì)挖掘數(shù)據(jù)的命中率更高,還可適應(yīng)不同環(huán)境下的數(shù)據(jù)挖掘方式,更具備實(shí)際應(yīng)用價(jià)值。
【關(guān)鍵詞】微積分;數(shù)據(jù)挖掘;數(shù)學(xué)模型
數(shù)據(jù)挖掘是指借助輔助性計(jì)算工具,在大批量的數(shù)據(jù)集合中,采用指定算法找出隱藏在數(shù)據(jù)集合中的某種規(guī)律性。隨著當(dāng)下社會(huì)生產(chǎn)的迅速發(fā)展,環(huán)境中數(shù)據(jù)監(jiān)測(cè)量同步增大,可明顯地發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)挖掘方法在大批量數(shù)據(jù)處理及分析下的壓力增大,雖然在指定時(shí)間內(nèi)完成的數(shù)據(jù)挖掘量依舊較大,但數(shù)據(jù)的命中率較低,挖掘的數(shù)據(jù)層次較淺[1]。為了更好地解決這一問(wèn)題,本文引入了微分?jǐn)?shù)學(xué)模型。此模型是按照微分?jǐn)?shù)學(xué)計(jì)算中的邏輯方法,利用數(shù)學(xué)語(yǔ)言構(gòu)成的科學(xué)工程。目前數(shù)學(xué)模型已經(jīng)是數(shù)學(xué)計(jì)算過(guò)程中不可缺少的計(jì)算工具[2]。本文基于微分?jǐn)?shù)學(xué)模型的應(yīng)用,設(shè)計(jì)數(shù)據(jù)挖掘方法,以期加大對(duì)數(shù)據(jù)集合的處理,提高處理數(shù)據(jù)集合的完整性與規(guī)范性。
1? ?數(shù)據(jù)挖掘方法
1.1? 基于微分?jǐn)?shù)學(xué)模型獲取數(shù)據(jù)信息流的互信息特征
對(duì)于在不同渠道獲取的數(shù)據(jù)集合,根據(jù)信息資源來(lái)源的不確定性,按照微分?jǐn)?shù)學(xué)模型中的聯(lián)合分布函數(shù)以及隨機(jī)分布函數(shù)構(gòu)建數(shù)據(jù)的高緯度相空間[3]。假設(shè)將點(diǎn)模型中分布的微分?jǐn)?shù)據(jù)集合表示為 L={ l1,l2,l3,…,ln },應(yīng)控制模型中的微分?jǐn)?shù)據(jù)與空間維度數(shù)據(jù) N={1,2,3,…,x }集合具有一一對(duì)應(yīng)的特點(diǎn)[4]。設(shè)定 T 為云環(huán)境下數(shù)據(jù)流的互信息特征表達(dá)方式,根據(jù)上述提出的對(duì)應(yīng)特點(diǎn),對(duì) N 維度數(shù)據(jù)進(jìn)行空間重構(gòu)。重構(gòu)的過(guò)程如下。
公式(2)中:F 表示在混合數(shù)據(jù)流環(huán)境下,與微分?jǐn)?shù)學(xué)模型相匹配的有限矢量數(shù)據(jù)集合; f 表示集合中的子數(shù)據(jù),E 表示模型中的微分動(dòng)態(tài)化數(shù)據(jù),s 表示數(shù)據(jù)在空間中的嵌入方式。根據(jù)上述計(jì)算公式,對(duì)獲取的數(shù)據(jù)流集合進(jìn)行樣本壓縮,以此獲得聚合后數(shù)據(jù)信息流的互信息特征,以數(shù)學(xué)模型中微分?jǐn)?shù)據(jù)的存儲(chǔ)節(jié)點(diǎn)為特征獲取依據(jù),對(duì)上述計(jì)算的矢量數(shù)據(jù)集合進(jìn)行特征提取。計(jì)算過(guò)程如下。
公式(3)中:表示數(shù)據(jù)信息流的互信息特征,p 表示數(shù)據(jù)分布存儲(chǔ)階段,q 表示數(shù)學(xué)模型中微分?jǐn)?shù)據(jù)的存儲(chǔ)節(jié)點(diǎn),k 表示特征提取的云環(huán)境,i 表示獲取行為的發(fā)生次數(shù),f 表示數(shù)據(jù)的非線性時(shí)間排序。通過(guò)上述公式的計(jì)算,整合云數(shù)據(jù)的初始值,完成對(duì)數(shù)據(jù)信息流互信息特征的提取。
1.2? 離散數(shù)據(jù)的擬合與挖掘
使用上述獲取的數(shù)據(jù)信息流互信息特征,分析不同層面數(shù)據(jù)之間的關(guān)聯(lián)性,并采集數(shù)據(jù)中最大指數(shù)的頻譜特征集合。在此過(guò)程中,可使用 Lyapunove 算法建立高緯度數(shù)據(jù)矩陣,將完整型數(shù)據(jù)與離散型數(shù)據(jù)一并列入矩陣集合中。為了減少數(shù)據(jù)擬合的工作量,在完成收集數(shù)據(jù)的基礎(chǔ)上,進(jìn)行空間維度的調(diào)整,將高緯度矩陣轉(zhuǎn)變?yōu)榈途暥染仃嚒4诉^(guò)程可用如下公式表示。
公式(4)中: k 表示數(shù)據(jù)頻譜特征,c 表示數(shù)據(jù)流適度值,表示矩陣空間維度。在完成矩陣降維的同時(shí),進(jìn)行離散型數(shù)據(jù)的擬合,擬合過(guò)程如下。
公式(5)中:J 表示數(shù)據(jù)流擬合中心矢量,m 表示數(shù)據(jù)在擬合過(guò)程中的非線性擾動(dòng)誤差,O 表示擬合特征目標(biāo)函數(shù),W 表示數(shù)據(jù)擬合關(guān)聯(lián)規(guī)則。在完成數(shù)據(jù)的擬合后,根據(jù)離散數(shù)據(jù)的表達(dá)方式,對(duì)其執(zhí)行層次挖掘指令。在最小迭代次數(shù)和收斂的作用下,調(diào)控測(cè)度信息,采用高斯核函數(shù)進(jìn)行離散數(shù)據(jù)流挖掘,核函數(shù)表達(dá)式如下。
公式(6)中:β 表示關(guān)聯(lián)數(shù)據(jù)排列順序,Q 表示數(shù)據(jù)挖掘最大調(diào)整量,S 表示數(shù)據(jù)子序列,R 表示數(shù)據(jù)逆變。根據(jù)計(jì)算公式,完成基于微分?jǐn)?shù)學(xué)模型的數(shù)據(jù)挖掘方法設(shè)計(jì)。
2? ?仿真實(shí)驗(yàn)
2.1? 實(shí)驗(yàn)準(zhǔn)備
結(jié)合當(dāng)下社會(huì)數(shù)據(jù)量的增長(zhǎng)趨勢(shì),在此提出一個(gè)簡(jiǎn)單的仿真測(cè)試,檢驗(yàn)本文提出數(shù)據(jù)挖掘方法的有效性。為了確保實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,采用搭建仿真實(shí)驗(yàn)操作臺(tái)的方式,模擬此次實(shí)驗(yàn)的發(fā)生環(huán)境。使用4核8線程的計(jì)算機(jī) CPU 作為實(shí)驗(yàn)的仿真平臺(tái),并將 Matlab7.0作為測(cè)試軟件,數(shù)據(jù)挖掘的樣本選擇國(guó)家大型數(shù)據(jù)庫(kù)開(kāi)放性網(wǎng)絡(luò)平臺(tái)為本文實(shí)驗(yàn)提供的數(shù)據(jù)(MP IL 25.0中的數(shù)據(jù)集合)。本文實(shí)驗(yàn)選擇數(shù)據(jù)庫(kù)中的隨機(jī)20組數(shù)據(jù)作為研究數(shù)據(jù)對(duì)象集合。要求這20組數(shù)據(jù)集合的規(guī)模從500.0Mbit 到 5000.0Mbit ,呈逐步上升趨勢(shì)。實(shí)驗(yàn)過(guò)程中,為同組數(shù)據(jù)提供不同的挖掘環(huán)境,分別使用本文設(shè)計(jì)的基于微分?jǐn)?shù)學(xué)模型的數(shù)據(jù)挖掘方法及傳統(tǒng)數(shù)據(jù)挖掘方法,對(duì)選擇的數(shù)據(jù)集合進(jìn)行挖掘,以數(shù)據(jù)命中率為方法評(píng)估的指標(biāo),根據(jù)對(duì)挖掘環(huán)境的監(jiān)測(cè)與分析,設(shè)計(jì)本次實(shí)驗(yàn)的相關(guān)指標(biāo)參數(shù),如表1所示。
根據(jù)表1的實(shí)驗(yàn)參數(shù)及實(shí)驗(yàn)環(huán)境,將本文數(shù)據(jù)挖掘方法定義為實(shí)驗(yàn)組,將傳統(tǒng)數(shù)據(jù)挖掘方法定義為本次實(shí)驗(yàn)的對(duì)照組,分別使用兩種挖掘方法進(jìn)行不同環(huán)境下的數(shù)據(jù)挖掘工作,控制影響實(shí)驗(yàn)結(jié)果的相關(guān)變量,以此完成此次仿真實(shí)驗(yàn)的實(shí)驗(yàn)準(zhǔn)備。
2.2? 實(shí)驗(yàn)結(jié)果分析
根據(jù)上述的實(shí)驗(yàn)準(zhǔn)備進(jìn)行此次數(shù)據(jù)挖掘?qū)嶒?yàn),記錄實(shí)驗(yàn)過(guò)程數(shù)據(jù),整理數(shù)據(jù),并將其繪制成表2所示的實(shí)驗(yàn)結(jié)果。
根據(jù)上述表1中統(tǒng)計(jì)的數(shù)據(jù)可知,在不同的數(shù)據(jù)挖掘環(huán)境下,無(wú)論是傳統(tǒng)方法或是本文設(shè)計(jì)的方法,均可執(zhí)行對(duì)應(yīng)的數(shù)據(jù)挖掘工作。但進(jìn)一步分析表格中的數(shù)據(jù)發(fā)現(xiàn),本文數(shù)據(jù)挖掘方法對(duì)于挖掘數(shù)據(jù)的命中值均在命中范圍內(nèi),傳統(tǒng)方法在環(huán)境1與環(huán)境3的實(shí)驗(yàn)中的數(shù)據(jù)命中值超出了實(shí)際范圍,表明挖掘的數(shù)據(jù)結(jié)果不具備研究?jī)r(jià)值。因此根據(jù)上述實(shí)驗(yàn)結(jié)果得出此次實(shí)驗(yàn)的結(jié)論:相比傳統(tǒng)的數(shù)據(jù)挖掘方法,本文提出的基于微分?jǐn)?shù)學(xué)模型的數(shù)據(jù)挖掘方法更具備有效性,不僅挖掘數(shù)據(jù)的命中率更高,同時(shí)還可適應(yīng)不同環(huán)境下的數(shù)據(jù)挖掘方式,更具備實(shí)際應(yīng)用價(jià)值。
基于微分?jǐn)?shù)學(xué)模型的應(yīng)用,本文開(kāi)展了數(shù)據(jù)挖掘方法的設(shè)計(jì)。采用設(shè)計(jì)對(duì)比實(shí)驗(yàn)的方式驗(yàn)證了提出的方法在不同狀態(tài)下具備一定的可使用性。但由于本文進(jìn)行的實(shí)驗(yàn)受到實(shí)驗(yàn)場(chǎng)地及實(shí)驗(yàn)設(shè)備的限制,實(shí)驗(yàn)的最終結(jié)果可能與實(shí)際結(jié)果存在一定偏差,為此在后期的研究中,可應(yīng)用本文實(shí)驗(yàn)提出的環(huán)境,重構(gòu)實(shí)驗(yàn)過(guò)程,完備實(shí)驗(yàn)中需要的設(shè)備,提高數(shù)據(jù)挖掘方法檢驗(yàn)結(jié)果的真實(shí)性與準(zhǔn)確性。
【參考文獻(xiàn)】
[1]陳志雄.基于hadoop平臺(tái)的分布式數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)探討[J].數(shù)字技術(shù)與應(yīng)用,2017(1).
[2]梅毅,熊婷,羅少彬.復(fù)雜屬性環(huán)境下NoSQL分布式大數(shù)據(jù)挖掘方法研究[J].科學(xué)技術(shù)與工程,2017(9).
[3]熊亞軍,孫兆彬,李梓銘,等.基于數(shù)據(jù)挖掘算法和數(shù)值模擬技術(shù)的大氣污染減排效果評(píng)估[J].環(huán)境科學(xué)學(xué)報(bào),2019(1).
[4]李曉峰,李東.基于SOM聚類的多模態(tài)醫(yī)學(xué)圖像大數(shù)據(jù)挖掘算法[J].西安工程大學(xué)學(xué)報(bào),2019(4).
【作者簡(jiǎn)介】
常天興(1982~),男,漢族,山西晉中人,碩士研究生,講師。研究方向:基礎(chǔ)數(shù)學(xué)。