文/藍(lán)善根
近年來大數(shù)據(jù)飛速發(fā)展,數(shù)據(jù)的采集技術(shù)趨于成熟,海量的數(shù)據(jù)為科技生活提供了便利,但同時數(shù)據(jù)量的龐大與繁雜為數(shù)據(jù)的計算處理與分析帶來了極大的困難,在實際生產(chǎn)以及生活當(dāng)中,需要投入更多的研究來加強(qiáng)多維數(shù)據(jù)的分析與處理,使人們生產(chǎn)數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù),改變科技生活,受惠于科技發(fā)展和大數(shù)據(jù)相關(guān)技術(shù)。
在數(shù)據(jù)處理當(dāng)中,大部分只能分析具有某特征值的數(shù)據(jù),當(dāng)數(shù)據(jù)變成多維數(shù)據(jù),混合屬性的時候,技術(shù)上很難分析和處理,如何高效聚類數(shù)據(jù)成為了研究的熱點。
目前對于大數(shù)據(jù)當(dāng)中的數(shù)據(jù)采集技術(shù)已經(jīng)有了飛速的發(fā)展和突破。數(shù)據(jù)分析方法也多種多樣,但是目前仍然存在很多問題:業(yè)務(wù)數(shù)據(jù)的采集、存儲結(jié)構(gòu)多樣,形勢混亂,數(shù)量龐雜并且存在隨意亂填現(xiàn)象無效數(shù)據(jù)較多;數(shù)據(jù)分析技術(shù)不夠普及,大多數(shù)信息服務(wù)行業(yè)人員對數(shù)據(jù)的處理技術(shù)不甚了解;數(shù)據(jù)龐雜的情況下,數(shù)據(jù)分析處理的速度有限;多維數(shù)據(jù)的分析以及展示不夠智能等。
關(guān)于多維數(shù)據(jù)分析處理技術(shù),目前有部分專家發(fā)布了較為優(yōu)秀的研究成果,如文獻(xiàn)[1-5]提出的各種算法以及開發(fā)出的比較先進(jìn)的軟件系統(tǒng)。
企業(yè)或者機(jī)構(gòu)日常經(jīng)營積累的額海量數(shù)據(jù)以及隨著大數(shù)據(jù)的普及,信息科技的共享展示,通過特定的手段獲取有效的信息并利用算法等科學(xué)技術(shù)挖掘數(shù)據(jù)隱含價值,指導(dǎo)人們在生產(chǎn)經(jīng)營中的分析以及決策。本文主要針對多維數(shù)據(jù)分析處理技術(shù)進(jìn)行了介紹以及算法仿真實驗,驗證了多維數(shù)據(jù)分析計算算法的可行性以及對計算性能的提高。
獲取大量的多維數(shù)據(jù)信息后,采用交叉信息鏈模型來進(jìn)行計算,計算結(jié)果可以獲取數(shù)據(jù)集合的離散樣本,將該樣本利用粒子群聚方法進(jìn)行動態(tài)分配得到多維數(shù)據(jù)的信息素濃度,完成聚類,該過程詳細(xì)求解如下:
將海量的多維離散數(shù)據(jù)存儲在系統(tǒng)中,設(shè)數(shù)據(jù)為:
采用交叉信息鏈模型獲取數(shù)據(jù)集合中的N個樣本并將其切割得到聚類樣本Xi(i=1,2,3,…n),矢量表示方式為:
以上i取值范圍為i=1,2,3,…C,表示第i個聚類中心,Vi含義為數(shù)據(jù)結(jié)構(gòu)中心的第i個矢量聚類中心,C為常數(shù); j的取值范圍為j=1,2,3…s,表示迭代次數(shù),s含義為帶寬頻間時間。多維離散數(shù)據(jù)Vmi的聚類劃分矩陣如下所示:
以上i取值范圍為i=1,2,3,…C,表示第i個聚類中心,k=1,2,3…n,表示n個樣本。在多維離散數(shù)據(jù)的基礎(chǔ)上實現(xiàn)模糊C均值聚類算法,采用群聚類算法對樣本進(jìn)行動態(tài)分配來獲取信息素弄不,則表達(dá)式如下:
以上公式中,m代表權(quán)重,(dik)2含義為xk與Vi多維離散數(shù)據(jù)結(jié)構(gòu)中心矢量,C代表計算機(jī)系統(tǒng)的慣性權(quán)值,代表聚類中心的非劣解,(U,V)表示非劣解的距離,采用歐式距離表達(dá)方式如下:
根據(jù)以上公式得到聚類中心最優(yōu)解如下:
結(jié)合約束條件,采用李雅普諾夫極限定理,得到聚類的中心極值為:
求解以上公式獲取聚類中心,利用以下公式進(jìn)行數(shù)據(jù)聚類:
以上就是多維離散數(shù)據(jù)的高效聚類原理,通過該過程完成數(shù)據(jù)的聚類。
在2.1的基礎(chǔ)原理上,利用離散性時間序列分析方法構(gòu)建目標(biāo)函數(shù),得到最優(yōu)聚類中心,采用優(yōu)化算法對最優(yōu)聚類中心進(jìn)行優(yōu)化,就是本文要實現(xiàn)的高效聚類方法。
首先,構(gòu)建多維離散數(shù)據(jù)信息流模型,提取其時延尺度特征值,以此構(gòu)建多維離散數(shù)據(jù)目標(biāo)函數(shù),求解該函數(shù)得到最優(yōu)聚類中心,操作過程如下所示:
構(gòu)造多維離散數(shù)據(jù)變量時間序列{Xn},樣本長度取值為n,設(shè)樣本數(shù)據(jù)流分類特征屬性為X、Y,最小嵌入為數(shù)為m,最優(yōu)延遲為τ,當(dāng)數(shù)據(jù)特征的平均速度得到滿足時,信息流模型為:
以上公式中,n為樣本長度,t0為聚類中心檢索,△t為單位時間變化,h為數(shù)據(jù)時間序列中每個樣本獨(dú)立的相似性特征量,為時延尺度。根據(jù)計算多維離散數(shù)據(jù)關(guān)聯(lián)度來表示數(shù)據(jù)離散性時間序列的特征,并進(jìn)行空間重構(gòu),得到時間序列分布軌跡如下:
表1:不同聚類方法用時對比
以上x(t)為采集樣本的時間,J為多維離散數(shù)據(jù)相關(guān)系數(shù),△t表示抽樣時間間隔,m表示嵌入維數(shù),可以用K=N-(m-1)*J來表達(dá)時間序列分類的最大屬性,得到向量模型以及特征空間數(shù)據(jù)矢量如下所示:
以上公式構(gòu)造了海量數(shù)據(jù)流提取特征值屬性,根據(jù)以上成果構(gòu)建目標(biāo)函數(shù),數(shù)據(jù)的分布模型如下所示:
以上公式中,a0為數(shù)據(jù)采樣初始值,xn-1代表數(shù)值相同的時間序列,bi為最佳分類屬性,設(shè)多維離散數(shù)據(jù)時間標(biāo)函數(shù)為x(t)(t=0,1,2…n-1),采用2.1提到的模糊均值聚類算法搜索有限的數(shù)據(jù)集向量如下:
將數(shù)據(jù)集向量按照屬性分類,得到n個數(shù)據(jù)樣本數(shù)量,用xi(i=1,2,3…n)表示多維離散數(shù)據(jù)信息增益矢量如下:
在以上多維離散數(shù)據(jù)信息增益矢量的數(shù)據(jù)集中選K個實例,則其目標(biāo)函數(shù)最優(yōu)聚類中心得以求解,用公式表示為:
得到多維離散數(shù)據(jù)的最優(yōu)聚類中心以后,其次要利用優(yōu)化算法對最優(yōu)聚類結(jié)果進(jìn)行優(yōu)化從而實現(xiàn)高效聚類。具體優(yōu)化過程如下所示:
第一步,用α和β編碼每個聚類中心,要求α和β滿足 |α|2+|β|2=1,觀測并生成二進(jìn)制的普通種群,假設(shè)量子種群為 pop,數(shù)據(jù)集類別為 K,數(shù)據(jù)維數(shù)為 D,每一個維數(shù)用b位二進(jìn)制來表示,則每一個量子染色體的長度 L= K×D×b。則種群 Q(t) = {qt1,qt2,…,qtpop}中第 i 個個體的編碼形式為:
代入t=0來對量子集合進(jìn)行初始化并觀測結(jié)果,獲取普通的種群如下:
估計普通種群p(t)并計算出每個個體的適應(yīng)度,提取適應(yīng)度最大的個體:
修正Q(t)形成新生集合:
利用以上公式擾動抑制聚類中心從而實現(xiàn)對多維離散數(shù)據(jù)的優(yōu)化:
2.1以及2.2介紹了該算法的原理以及計算方法,本小節(jié)將對其進(jìn)行仿真實驗,文獻(xiàn)[6]以及文獻(xiàn)[7]分別介紹了另外兩種不同的處理方法,下面我們將仿真實驗結(jié)果與另外兩種算法實驗結(jié)果進(jìn)行對比。對比結(jié)果中,Q值的結(jié)果如下圖1所示。
圖1為文獻(xiàn)[6]的聚類方法結(jié)果與本文提到的聚類方法對比,不端的加大聚類參數(shù)個數(shù),Q值隨之不同幅度增大,通過圖1中對比可知,本文方法在效率和性能方面優(yōu)于之前的算法。
單一的對比具有局限性,為了更好的對比不同的算法,本文又采取了讓文獻(xiàn)[7]的方法進(jìn)行計算,將本文、文獻(xiàn)[6]、文獻(xiàn)[7]的三種方法計算時間的結(jié)果進(jìn)行對比,對比結(jié)果如表1所示。
由表1結(jié)果對比可知,隨著需要計算的數(shù)據(jù)點個數(shù)不斷加大,計算時間不同的同時,計算時間變化有不同程度的增幅。本文提到的算法明顯優(yōu)于其他兩種早期提出的算法,有效的提高了計算效率。
本文研究了早期的一些聚類方法,發(fā)現(xiàn)其計算效率較差。因而提出了另一種優(yōu)化算法,提高當(dāng)前大數(shù)據(jù)前提下多維離散數(shù)據(jù)的計算方法,實驗結(jié)果證明該方法可行并且優(yōu)于早期的一些計算方法。該方法雖然有效提高了數(shù)據(jù)計算的效率,但是仍存在一些不足,希望更多的研究者們提出更優(yōu)化、更效率的多維離散數(shù)據(jù)計算方法。大數(shù)據(jù)正在普及,數(shù)據(jù)的存儲計算以及展示優(yōu)化在未來一定迎來更廣闊的發(fā)展。
圖1:不同聚類方法Q值對比