朱亞東,高翠芳
(1.江蘇聯(lián)合職業(yè)技術學院信息中心,江蘇南京 211135; 2.江南大學理學院,江蘇無錫 214122)
基于PSO的云計算環(huán)境中大數據優(yōu)化聚類算法
朱亞東1,高翠芳2
(1.江蘇聯(lián)合職業(yè)技術學院信息中心,江蘇南京 211135; 2.江南大學理學院,江蘇無錫 214122)
在云計算環(huán)境下,對大數據進行優(yōu)化聚類是實現數據優(yōu)化訪問和挖掘的基礎。傳統(tǒng)方法采用模糊C均值聚類算法進行云計算中的大數據聚類,易陷入局部極值,產生聚類偏移,效果不佳。提出一種基于優(yōu)化粒子群(PSO)算法的大數據聚類算法。分析了云計算環(huán)境中的大數據結構模型,計算大數據的離散樣本頻譜特征,實現聚類樣本的特征提取和信息模型構建。由于粒子群在搜索過程中經常會陷入局部最優(yōu)解,采用混沌映射方法,帶領粒子逃離局部最優(yōu)解,設計粒子群優(yōu)化算法進行特征聚類,達到大數據優(yōu)化聚類的目的。仿真結果表明,采用該算法進行數據聚類,誤分率降低,尋優(yōu)性能較好,具有較好的應用價值。
粒子群;數據聚類;云計算;大數據
各種云計算系統(tǒng)的出現使得信息處理和計算向著云計算方向發(fā)展。在云計算系統(tǒng)中,允許開發(fā)者將寫好的程序放在“云”里運行,實現云計算系統(tǒng)的程控擴展和智能共享。在云計算環(huán)境中,海量的大數據需要進行調度和訪問,達到數據挖掘的目的。實現云計算中大數據挖掘的基礎在于數據聚類,因此研究云計算環(huán)境中大數據優(yōu)化聚類算法具有重要意義。
聚類算法的本質是將海量大數據信息流通過統(tǒng)計信息分析的方法分成若干個層次的子集,提取數據信息流的屬性特征量,調整聚類中心實現數據聚類優(yōu)化。傳統(tǒng)大數據聚類算法主要有分割聚類算法、融合法和分裂法、層次類別算法以及神經網絡控制算法[1-3]。其中,采用粒子群聚類的聚類粒度分割算法具有典型性,取得了一定的研究成果。文獻[4]提出一種基于K -means算法的云計算環(huán)境中的大數據聚類算法,基于互聯(lián)網的相關服務的增加、使用和交付模式,實現大數據聚類;但是該算法存在對內存空間需求太大、計算開銷大的缺點。文獻[5]提出一種基于模糊C均值聚類的云計算環(huán)境中的大數據聚類算法。算法隨著數據量的增加,數據密度和類別距離大小出現非線性偏移,導致聚類中心不穩(wěn)定,聚類效果不好。文獻[6]提出基于分數階Fourier變換特征匹配和K-L變換分類的云計算設備中的大數據特征高效分類挖掘算法,實現云計算設備中的大數據特征高效分類挖掘。算法的缺陷在于動態(tài)擴展性不好,且對初始聚類中心較為敏感,需要進行改進。
粒子群算法能夠通過各個粒子間的合作和競爭關系尋求最優(yōu)解,并且其算法結構簡單,易實現,從而在參數優(yōu)化方面?zhèn)涫荜P注。于是文中便利用粒子群的特點,并針對上述問題,提出一種基于改進粒子群(Particle Swarm Optimization,PSO)算法的云計算環(huán)境中大數據特征提取和大數據聚類算法。首先分析了云計算環(huán)境中的大數據結構模型,進行大數據的特征提取和信息模型構建,設計粒子群優(yōu)化算法進行特征聚類,并采用混沌搜索對粒子群優(yōu)化算法進行改進,提高其收斂速度和全局尋優(yōu)能力,達到大數據優(yōu)化聚類的目的。
1.1 云計算環(huán)境中大數據存儲機制體系構架
云計算是通過互聯(lián)網來提供動態(tài)易擴展的大數據存儲空間和結構模型。為了實現云計算環(huán)境中大數據存儲聚類和分類挖掘,需要首先在云計算環(huán)境中構建大數據存儲機制體系構架。云計算環(huán)境中大數據存儲采用虛擬化存儲池結構,云計算部署依賴于計算機集群,從上到下分別是:I/O虛擬計算機,USB接口層序和磁盤層,企業(yè)數據中心通過各種終端獲取應用服務,使計算分布在大量的分布式計算機上[7]。云計算環(huán)境中大數據存儲總體架構如圖1所示。
圖1中,當所有的云計算虛擬機都被分配到物理機之后,利用下述公式能夠計算本次聚類中的全局最優(yōu)解[8],并能根據最優(yōu)解將全部云計算中的大數據特征聚類中心VM分配到物理機PM上:
對樣本進行分析采集,判斷樣本是否為典型樣本,以此樣本為數據,設大數據庫信數據信息流樣本S=,分別在時間段T1,T2,…,TK進行數據信息采樣。
現在把云計算環(huán)境中大數據集合X分為c類,其中1<c<n。把數據的分割轉化為對空間的分割,得到大數據的存儲結構中心矢量為:
其中,Vi為目標聚類特征的第i個矢量(第i個聚類中心矢量)。
模糊劃分矩陣表示為:
對單個數據源進行冗余數據降維處理,在進行多通道QoS需求的虛擬機分簇挖掘的過程中,其輸入部分(為虛擬機和物理機的集合)以及相關參數分別為VMS= {VM,VM,…,VM},PMS= {PM,PM,…,PM},啟12m12n發(fā)因子為α,啟發(fā)因子的期望值為β,最大挖掘次數為Imax。由此,客戶端上傳的數據塊提供固定大小的數據塊,實現云聚類。通過上述的云計算環(huán)境中大數據存儲機制體系構架分析,為進行大數據聚類提供準確的數據基礎[9]。
1.2 大數據信息流模型構建與特征提取
假設云計算環(huán)境中的信息流時間序列為{x(t0+ iΔt)},i=0,1,…,N-1。設X和Y為屬性集合,云計算環(huán)境下大數據聚類空間狀態(tài)矢量表達式為:
式中,x(t)為云計算環(huán)境下大數據聚類系統(tǒng)信息流時間序列;J為云計算環(huán)境下大數據重構的相空間的時間窗函數;m為目標聚類調節(jié)因子;Δt為數據采樣時間間隔。
計算大數據的離散樣本頻譜特征Xp(u ),主特征量為:
其中,sc(t)為大數據的特征標量時間序列;ej2πf0t為大數據聚類數據的離散樣本中心。
數據集為 { X1,X2,…,Xn},( F ,Q)為樣本數據高階貝塞爾函數統(tǒng)計量,確定節(jié)點數據包的置信度,確立置信區(qū)間,得到的置信度和置信區(qū)間分別為:
數據聚類中心的粒子最優(yōu)解的向量矩陣為:
其中,σr為粒子在k+1時刻的位置;Rr×r則為實矩陣。
對角向量可以表述為粒子距離目標解的遠近,并且滿足:
基于誤差反傳的梯度下降訓練,實現對大數據的特征優(yōu)化提取,輸入得數據聚類系統(tǒng),實現模式識別。
在上述對云計算中的大數據信息流模型進行構建與特征提取的基礎上,進行大數據聚類優(yōu)化設計與實現。傳統(tǒng)方法采用模糊C均值聚類算法進行云計算中的大數據聚類,易陷入局部極值,產生聚類偏移,效果不好[10]。文中提出一種基于粒子群優(yōu)化(PSO)算法的大數據聚類算法。粒子群(PSO)優(yōu)化算法由Kennedy和Eberhart于1995年提出,是一種新型智能優(yōu)化算法。利用粒子群算法進行云計算中的大數據聚類處理時,由于每個個體有不一樣的特征,適應度高的個體更容易進入下一代,由此可以優(yōu)化聚類算法的實現效率。
假設在D維大數據聚類搜索空間中,有m個粒子組成一個種群,每個大數據信息特征矢量Xi對應的一個函數為:
其中,fi是Xi模因組適應度函數;Pij(k)表示k時刻第i個粒子的全局優(yōu)化粒子權值。
設置門限值Nth,當Neff<Nth時,第j個粒子移動的概率為:
其中,xk為第k個動態(tài)慣性權重;a為聚類中心的控制參量。
根據不同數據聚類任務[8],調整適應度函數內權重,得到PSO聚類的權重系數為:
其中,α,β{ }為云計算環(huán)境下大數據聚類的分集聚斂目標函數,得到優(yōu)化的PSO聚類目標函數為:
其中,粒子的位置對應樣本數據的k個聚類中心。除了粒子位置外,對粒子的適應度和速度進行編碼。由于樣本數據的屬性向量維數為d,則粒子的位置和速度為k×d維矩陣。
針對粒子群算法容易出現早熟并且收斂速度慢的缺陷[11],文中采用混沌映射方法對其進行優(yōu)化,帶領粒子逃離局部最優(yōu)解,加速收斂?;煦缢阉鞅砻嫔巷@示出毫無規(guī)律的遍歷,然而它是憑借著其內在規(guī)則隨機不重復地對系統(tǒng)中所有狀態(tài)進行搜索遍歷。混沌方法首先要生成混沌序列,這里采取Logistic映射獲得混沌序列,可以通過如下方程進行描述:
在粒子群不斷進行迭代計算的過程中,超過一定代數,其算法收斂速度便開始降低,于是為了提高粒子群的收斂速度和全局尋優(yōu)能力,通過生成的混沌序列來擾動全局最優(yōu)粒子。對于前述的m個粒子,將它們的每一維度一一映射到(0,1)范圍上,于是便能夠得到向量D=(d1,d2,…,dm)。其中,di為粒子第i維,其表達式為:
式中,gbesti為適應度最高粒子的第i維;a和b分別為粒子在任意維度中的取值下限和上限。
利用混沌擾動重新進行迭代計算,得到新序列:
把得到的新序列Z1當成新粒子,并進行適應度計算,如果計算得到Z1適應度高于之前搜索得到的最優(yōu)解,那么便令Z1為當前最優(yōu)解。
通過上述處理,在云計算系統(tǒng)的大數據聚類中就代表一個任務調度策略[12]。改進的PSO大數據優(yōu)化聚類算法流程描述如圖2所示。
為了驗證文中算法在實現云計算環(huán)境中大數據優(yōu)化聚類和數據挖掘中的性能,對其進行仿真實驗。
仿真實驗硬件環(huán)境為:處理器Intel(R)Core(TM) 2 Duo CPU主頻2.93 GHz,內存2 GB;操作系統(tǒng):Windows 7。仿真軟件采用Matlab 7。
實驗中,大數據的采樣頻率fs=4f0=20 kHz。大數據聚類的時間中心t0=15 s,數據量從10 MB到1 GB,以10 MB為單位,粒子群數量N為30 984個,粒子群聚類過程中的相空間搜索維度設置為30,粒子移動的概率為0.34,每次PSO運行迭代5 000次。大數據聚類的算法處理參數設置見表1。
表1 大數據聚類的算法處理參數設置
根據上述仿真環(huán)境和參數設定結果,對云計算中的大數據聚類進行仿真,其中大數據的特征分布如圖3所示。
由圖3可見,原始的大數據二維特征分布具有隨機性,在二維空間中難以實現對其規(guī)律性的特征提取和分類。采用文中算法進行特征提取和數據聚類處理,進行大數據的特征提取和信息模型構建,設計粒子群優(yōu)化算法進行特征聚類,得到的特征提取結果如圖4所示。
由圖4可見,文中算法能有效實現對云計算中的大數據的特征提取,波束的聚焦性能較好,為數據優(yōu)化聚類提供準確的特征依據,以此為基礎實現數據聚類。
采用不同算法分析大數據聚類的尋優(yōu)性能,得到聚類中心尋優(yōu)性能曲線如圖5所示。
由圖5可見,文中算法在連續(xù)不斷迭代的計算過程中,以穩(wěn)定的收斂速度向最優(yōu)解逼近,相比其他算法,具有明顯的全局最優(yōu)解搜尋優(yōu)勢和較好的收斂速度,提高了數據聚類的尋優(yōu)能力[13],從而提高了大數據聚類精度,降低了誤分率。通過定量分析可知,采用文中算法的誤分率比傳統(tǒng)算法降低了13.56%,展示了較好的大數據聚類挖掘能力。
在云計算環(huán)境中,海量的大數據需要進行調度和訪問,達到數據挖掘的目的。實現云計算中大數據挖掘的基礎在于數據聚類,文中提出一種基于改進PSO算法的大數據聚類算法。首先分析了云計算環(huán)境中的大數據結構模型,進行大數據的特征提取和信息模型構建[14],設計粒子群優(yōu)化算法進行特征聚類,達到大數據優(yōu)化聚類的目的。仿真結果表明,文中算法在提高云計算環(huán)境中的大數據聚類性能方面表現優(yōu)異。通過文中算法進行數據聚類,降低了誤分率,具有較好的尋優(yōu)性能。
[1] 譚鵬許,陳 越,蘭巨龍,等.用于云存儲的安全容錯編碼[J].通信學報,2014,35(3):109-115.
[2] 魏理豪,王 甜,陳 飛,等.基于層次分析法的信息系統(tǒng)實用化評價研究[J].科技通報,2014,30(2):143-145.
[3] 吳 濤,陳黎飛,郭躬德.優(yōu)化子空間的高維聚類算法[J].計算機應用,2014,34(8):2279-2284.
[4] 辛 宇,楊 靜,湯楚蘅,等.基于局部語義聚類的語義重疊社區(qū)發(fā)現算法[J].計算機研究與發(fā)展,2015,52(7): 1510-1521.
[5] 許成鵬,朱志祥.一種基于云計算平臺的數據庫加密保護系統(tǒng)[J].電子設計工程,2015,23(19):97-100.
[6] 陶新民,宋少宇,曹盼東,等.一種基于流形距離核的譜聚類算法[J].信息與控制,2012,41(3):307-313.
[7] 劉少偉,孔令梅,任開軍,等.云環(huán)境下優(yōu)化科學工作流執(zhí)行性能的兩階段數據放置與任務調度策略[J].計算機學報,2011,34(11):2121-2130.
[8] 許 丞,劉 洪,譚 良.Hadoop云平臺的一種新的任務調度和監(jiān)控機制[J].計算機科學,2013,40(1):112-117.
[9] 張 潔.云計算環(huán)境下的數據存儲保護機制研究與仿真[J].計算機仿真,2013,30(8):254-257.
[10]張彬橋.云環(huán)境下計算資源調度策略與仿真研究[J].計算機仿真,2013,30(11):392-395.
[11]王德政,申山宏,周寧寧.云計算環(huán)境下的數據存儲[J].計算機技術與發(fā)展,2011,21(4):81-84.
[12] Qin Z R,Wang G Y,Wu L Y,et al.A scalable rough set knowledge reduction algorithm[C]//Proceedings of rough sets and current trends in computing,[s.l.]:[s.n.],2004: 445-454.
[13]Liao Lüchao,Jiang Xinhua,Zou Fumin,et al.A spectral clustering method for big trajectory data mining with latent semantic correlation[J].Chinese Journal of Electronics,2015,43(5): 956-964.
[14]余曉東,雷英杰,岳韶華,等.基于粒子群優(yōu)化的直覺模糊核聚類算法研究[J].通信學報,2015,36(5):74-80.
Big Data Optimization Clustering Algorithm Based on PSO in Cloud Computing Environment
ZHU Ya-dong1,GAO Cui-fang2
(1.Information Center,Jiangsu Union Technical Institute,Nanjing 211135,China; 2.School of Science,Jiangnan University,Wuxi 214122,China)
In the cloud computing environment,the optimization of big data is the basis for the data optimized access and mining.In the traditional method,the fuzzy C means clustering algorithm is used to cluster the big data in the cloud computing,which is easy to fall into local extremum.A big data clustering algorithm based on Particle Swarm Optimization(PSO)is proposed.The big data structure model in cloud computing environment is analyzed,and the discrete sample spectrum characteristics of big data are calculated,realizing feature extraction and information model construction of clustering sample.The particles are often fallen into local extremum in searching.The chaotic mapping is used to take the particles against the local extremum.The PSO is designed to carry on the feature clustering for the purpose of optimization clustering for big data.Simulation shows that the proposed algorithm is used for data clustering,and the error rate is reduced,and the optimization performance is better,and it has good application value.
particle swarm;data clustering;cloud computing;big data
TP391.9
A
1673-629X(2016)09-0178-05
10.3969/j.issn.1673-629X.2016.09.040
2015-12-07
2016-04-12< class="emphasis_bold">網絡出版時間
時間:2016-08-01
國家自然科學基金青年基金(61402202)
朱亞東(1976-),男,碩士,副教授,研究方向為計算機網絡、信息安全。
http://www.cnki.net/kcms/detail/61.1450.TP.20160801.0907.050.html