楊麗君
(新疆工程學院信息工程學院,烏魯木齊 830091)
云計算作為新一代數(shù)據(jù)處理與存儲技術(shù),實現(xiàn)了數(shù)據(jù)的快速處理與移動應(yīng)用[1]。由于海量的數(shù)據(jù)信息深度挖掘問題已經(jīng)成為一個急需解決的難題,因此,設(shè)計了一種基于云計算的數(shù)據(jù)挖掘聚類算法。數(shù)據(jù)挖掘聚類指的就是盡可能復(fù)用前人已經(jīng)完成的人工識別工作,從而提高工作效率。解決形式上的數(shù)據(jù)挖掘聚類問題并不困難,最簡單直接的辦法就是為各種基本數(shù)據(jù)格式兩兩之間開發(fā)一個轉(zhuǎn)換器,因為流行的數(shù)據(jù)格式數(shù)量不多,并且轉(zhuǎn)換規(guī)則明確,這是一個只要投入一定人力就能解決的問題[2]。但語義上的數(shù)據(jù)挖掘聚類比較復(fù)雜,因此,本文進行基于云計算的數(shù)據(jù)挖掘聚類算法研究。
考慮到傳統(tǒng)的數(shù)據(jù)挖掘聚類算法已經(jīng)不能滿足對海量數(shù)據(jù)高效、準確挖掘聚類的要求[3]。因此,利用云計算數(shù)據(jù)庫來存儲數(shù)據(jù)并對這些數(shù)據(jù)進行智能挖掘成為需要重點研究的課題。在基于云計算的數(shù)據(jù)挖掘聚類算法研究中,首先,確定數(shù)據(jù)挖掘聚類的白化權(quán)函數(shù),進而實現(xiàn)基于云計算的數(shù)據(jù)挖掘聚類。
白化權(quán)函數(shù)作為基于云計算的數(shù)據(jù)挖掘聚類算法中最重要的指標,必須確定數(shù)據(jù)挖掘聚類的白化權(quán)函數(shù)才能保證基于云計算的數(shù)據(jù)挖掘聚類算法的準確性。本文采用這種方法確定數(shù)據(jù)挖掘聚類的白化權(quán)函數(shù)。設(shè)確定數(shù)據(jù)挖掘聚類的集合為數(shù)據(jù)挖掘聚類的白化權(quán)函數(shù)的計算公式為:
在公式(1)中,w、c為數(shù)據(jù)挖掘聚類的壓縮函數(shù),f(x)為未知參數(shù),但均為實數(shù)。為數(shù)據(jù)挖掘聚類的向量、和輸入數(shù)據(jù)挖掘聚類向量x的點積。根據(jù)數(shù)據(jù)挖掘聚類的概率質(zhì)量函數(shù)最大值與最小值削減和合并結(jié)果調(diào)整聚類中心數(shù)目,當聚類中心數(shù)目保持穩(wěn)定或滿足迭代結(jié)束條件時停止計算。
根據(jù)數(shù)據(jù)挖掘聚類的白化權(quán)函數(shù)的確定,選擇一個可以準確評價基于云計算的數(shù)據(jù)挖掘聚類算法的指標。在數(shù)據(jù)挖掘聚類迭代過程中,隨著聚類中心的數(shù)目不斷減少,各個聚類中心的位置也會隨之發(fā)生變化。必須運用云計算技術(shù)建立數(shù)據(jù)挖掘聚類數(shù)據(jù)庫,將聚類中心的位置整合數(shù)據(jù)的形式存儲在數(shù)據(jù)庫中。運用云計算技術(shù)建立的數(shù)據(jù)庫是對海量數(shù)據(jù)挖掘聚類的集成與管理,將大量類型相同的海量數(shù)據(jù)挖掘聚類構(gòu)成同構(gòu)數(shù)據(jù)庫。再通過數(shù)據(jù)挖掘聚類迭代過程不斷地位移,最后剩下的聚類中心的坐標就已經(jīng)能夠非常接近真實的聚類中心?;谠朴嬎愕臄?shù)據(jù)挖掘聚類算法可以最大限度的提高數(shù)據(jù)挖掘聚類覆蓋率,實現(xiàn)基于云計算的數(shù)據(jù)挖掘聚類。
為驗證基于云計算的數(shù)據(jù)挖掘聚類算法的有效性,通過對比實驗的方法對比基于云計算的數(shù)據(jù)挖掘聚類算法與傳統(tǒng)的數(shù)據(jù)挖掘聚類算法的聚類覆蓋率,設(shè)置傳統(tǒng)的數(shù)據(jù)挖掘聚類算法為對照組。將集成化數(shù)據(jù)均衡分組,選用25臺計算機構(gòu)成并行計算環(huán)境,為確保實驗的公正性,所選用的服務(wù)器處理器統(tǒng)一為IntelCBR1S350,主頻為1.98GHz。
根據(jù)上述設(shè)計的仿真實驗,統(tǒng)計實驗結(jié)果,如下圖1所示。
圖1 數(shù)據(jù)挖掘聚類覆蓋率對比圖
通過圖1可得出如下的結(jié)論,本文設(shè)計的基于云計算的數(shù)據(jù)挖掘聚類算法的聚類覆蓋率高于傳統(tǒng)的數(shù)據(jù)挖掘聚類算法,可以實現(xiàn)數(shù)據(jù)挖掘聚類。
隨著云計算環(huán)境下計算機聯(lián)網(wǎng)的逐步實現(xiàn),數(shù)據(jù)挖掘的聚類問題顯得越來越重要。基于云計算的數(shù)據(jù)挖掘聚類算法是針對數(shù)據(jù)挖掘進行聚類的最實用和最可靠的方法。針對基于云計算的數(shù)據(jù)挖掘聚類算法的研究可以大幅度提高數(shù)據(jù)挖掘的聚類覆蓋率,完成傳統(tǒng)的數(shù)據(jù)挖掘聚類算法所不能完成的任務(wù)?;谠朴嬎愕臄?shù)據(jù)挖掘聚類算法是數(shù)據(jù)挖掘聚類的核心技術(shù),為數(shù)據(jù)挖掘聚類提供學術(shù)意義。