• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      函數(shù)型數(shù)據(jù)的分步系統(tǒng)聚類算法

      2015-08-17 13:06:36郭均鵬王梅南高成菊
      系統(tǒng)管理學(xué)報 2015年6期
      關(guān)鍵詞:聚類距離函數(shù)

      郭均鵬,王梅南,高成菊,戴 暉

      (天津大學(xué) 管理與經(jīng)濟(jì)學(xué)部,天津 300072)

      在傳統(tǒng)技術(shù)條件下,人們能觀測和記錄到的數(shù)據(jù)往往是離散和有限的。然而,現(xiàn)實世界的數(shù)據(jù)卻更加復(fù)雜和多變,很多情況下,需要根據(jù)收集到的有限離散數(shù)據(jù)探索其內(nèi)在變化規(guī)律,如人體生長曲線、氣溫變化、PH值變化等。在處理點數(shù)據(jù)的過程中發(fā)現(xiàn),當(dāng)觀測的時間點十分密集時,數(shù)據(jù)在數(shù)據(jù)空間內(nèi)會體現(xiàn)出一定的函數(shù)特征。針對此類數(shù)據(jù)而言,傳統(tǒng)點數(shù)據(jù)的處理方法已不能滿足其分析要求。將具有函數(shù)特征的數(shù)據(jù)看作一個整體進(jìn)行研究,即函數(shù)型數(shù)據(jù)[1-4],對函數(shù)型數(shù)據(jù)進(jìn)行研究分析的方法就稱為函數(shù)型數(shù)據(jù)分析。函數(shù)型數(shù)據(jù)最早由Ramsay[1-3]提出,近年來,越來越多的學(xué)者開始關(guān)注和重視函數(shù)型數(shù)據(jù)的研究。

      聚類分析作為一種統(tǒng)計分析方法,被廣泛應(yīng)用于數(shù)學(xué)、計算機(jī)科學(xué)、生物學(xué)、經(jīng)濟(jì)學(xué)等許多領(lǐng)域,關(guān)于聚類的研究已取得了大量有意義的成果[5-8],但現(xiàn)有聚類算法大多是針對點數(shù)據(jù)進(jìn)行的聚類,針對函數(shù)型數(shù)據(jù)聚類的研究還相對較少。Abraham[9]將樣本數(shù)據(jù)擬合為B樣條函數(shù),并用k-means(k均值)方法對函數(shù)型數(shù)據(jù)進(jìn)行聚類。Chiou[10]在最大程度劃分函數(shù)型數(shù)據(jù)的條件下,運用FFT(Forward Functional Testing)模型確定聚類數(shù),并在此基礎(chǔ)上進(jìn)行聚類。Liu[11]提出同步校準(zhǔn)和聚類的方法,改進(jìn)了函數(shù)型數(shù)據(jù)分析先校準(zhǔn)再進(jìn)行聚類的傳統(tǒng)模式。王劼[12]定義了一種函數(shù)型數(shù)據(jù)距離,并在此基礎(chǔ)上對函數(shù)型數(shù)據(jù)進(jìn)行聚類。陳曉鋒[13]將Pearson相似系數(shù)引入到函數(shù)型數(shù)據(jù)聚類分析中,利用基函數(shù)展開對函數(shù)型數(shù)據(jù)進(jìn)行聚類,研究了歐式距離無法刻畫的曲線間的形態(tài)差異。Hebrail[14]運用動態(tài)規(guī)劃方法,在確定各類樣本數(shù)的前提下,用探索分析算法對函數(shù)型數(shù)據(jù)進(jìn)行聚類。Sangalli[15]提出了一種新k均值算法,可以有效處理振幅和階段變量,在對未校準(zhǔn)函數(shù)型數(shù)據(jù)進(jìn)行校準(zhǔn)的同時對其進(jìn)行聚類。Jank[16]以蒙特卡洛EM算法為基礎(chǔ),提出上升EM和遺傳上升EM算法,并對網(wǎng)站拍賣數(shù)據(jù)庫生成的函數(shù)型數(shù)據(jù)進(jìn)行了驗證。

      現(xiàn)有函數(shù)型數(shù)據(jù)聚類算法大多以數(shù)據(jù)間的實際距離作為聚類標(biāo)準(zhǔn),聚類結(jié)果能夠在距離上接近,但不能保證同一類中的數(shù)據(jù)也具有相似的形態(tài)特征??紤]到導(dǎo)函數(shù)可以很好地反映數(shù)據(jù)的內(nèi)在特征,本文首次將導(dǎo)函數(shù)距離引入函數(shù)型數(shù)據(jù)的聚類算法中,將實際距離與導(dǎo)函數(shù)距離相結(jié)合作為聚類標(biāo)準(zhǔn),使聚類結(jié)果不僅能夠在距離上接近,而且可以保證同類數(shù)據(jù)具有相似的形態(tài)特征,基于此,設(shè)計了函數(shù)型數(shù)據(jù)的分步系統(tǒng)聚類算法。具體而言,首先根據(jù)實際距離對函數(shù)型數(shù)據(jù)進(jìn)行系統(tǒng)聚類,得到在距離上接近的若干個新類;然后,在此基礎(chǔ)上,根據(jù)導(dǎo)函數(shù)的距離對每一個新類中的數(shù)據(jù)進(jìn)行進(jìn)一步聚類,得到在距離上接近且具有相似形態(tài)特征的新類。此外,作為此算法的一個重要應(yīng)用,在上述研究的基礎(chǔ)上,本文還提出了一種基于本文算法的函數(shù)型數(shù)據(jù)預(yù)測方法,并進(jìn)行了實例研究。

      1 函數(shù)型數(shù)據(jù)的生成

      函數(shù)型數(shù)據(jù)是以函數(shù)為表現(xiàn)形式的一種數(shù)據(jù),它將函數(shù)看作一個整體,而非一系列單獨的個體。其表現(xiàn)形式為光滑的曲線xi(t),i=1,2,…,n,其中,t為類似時間的一類變量,n為函數(shù)型數(shù)據(jù)的個數(shù)。然而,現(xiàn)實世界搜集到的數(shù)據(jù)往往是離散的點數(shù)據(jù),要進(jìn)行函數(shù)型數(shù)據(jù)分析,首先要通過擬合將離散的點數(shù)據(jù)生成為函數(shù)型數(shù)據(jù)。假設(shè)第i條曲線是由一系列離散的觀測數(shù)據(jù)yi1,yi2,…,yin得到,第1步就是將這些值轉(zhuǎn)化為函數(shù)xi(t)。如果觀測到的數(shù)據(jù)是準(zhǔn)確的,則該過程稱為插值;如果觀測數(shù)據(jù)存在誤差,則該過程稱為平滑。

      1.1 基函數(shù)

      函數(shù)型數(shù)據(jù)擬合最常用的方法是基函數(shù)擬合?;瘮?shù)是一系列具有一定性質(zhì)的獨立函數(shù)φi(i=1,2,…,K)的集合,通過線性組合表示函數(shù),其形式為,其中φk是K個已知的基函數(shù)。B樣條基是對非周期性數(shù)據(jù)進(jìn)行擬合最常用的樣條函數(shù)系統(tǒng)[9],本文采用B樣條基對函數(shù)型數(shù)據(jù)進(jìn)行擬合。

      樣條函數(shù)空間。將給定區(qū)間[a,b]劃分為N個子區(qū)間[xi—1,xi],i=1,2,…,N,其中a=x0<x1<…<xN=b。由下面遞推公式所得到的Bi,k(t)即稱為該劃分上的k階B樣條基函數(shù):

      1.2 函數(shù)平滑

      根據(jù)數(shù)據(jù)特征選擇合適的基函數(shù)系統(tǒng)后,需要計算系數(shù)向量,從而得到函數(shù)型數(shù)據(jù)[6]:

      式中:向量C表示系數(shù)矩陣ck;向量Φ表示矩陣φk(t)。在此,通過最小化代價函數(shù)來計算C的估計值:

      為求其解,令等式右邊導(dǎo)數(shù)為0:2ΦΦ′—2Φ′y=0,即可求得C的估計值。

      1.3 函數(shù)校準(zhǔn)

      函數(shù)型數(shù)據(jù)與點數(shù)據(jù)不同,其變化包括振幅和相位兩方面。函數(shù)型數(shù)據(jù)校準(zhǔn)的目的是將所有曲線中存在錯位的自變量t移動到同一標(biāo)準(zhǔn),從而只對振幅的變化進(jìn)行分析即可。通過曲線的校準(zhǔn),能夠使不同曲線的特征在自變量相近的地方體現(xiàn)出來。

      如圖1所示,函數(shù)型數(shù)據(jù)x1(t)與x2(t)雖然具有相同的函數(shù)特征,但是在每個時間點t的取值不同。為了方便比較,就要去除干擾項,該過程就是函數(shù)型數(shù)據(jù)的校準(zhǔn)。

      函數(shù)型數(shù)據(jù)校準(zhǔn)最簡單也是最常用的方法是時間軸t平移。設(shè)n個函數(shù)型數(shù)據(jù)xi(t),i=1,2,…,n,在區(qū)間[t1,t2]上有意義,同時在區(qū)間外也是有意義的。定義平移變量δi,令(t)=xi(t+δi),通過求下式的最小化確定平移量δi:

      圖1 函數(shù)型數(shù)據(jù)的校準(zhǔn)

      本文算法在利用函數(shù)距離進(jìn)行聚類得到初步聚類結(jié)果的基礎(chǔ)上,采用函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)距離對函數(shù)型數(shù)據(jù)進(jìn)行二次聚類,即充分考查函數(shù)型數(shù)據(jù)的內(nèi)部特征,根據(jù)函數(shù)型數(shù)據(jù)的內(nèi)在變化規(guī)律對新類進(jìn)行進(jìn)一步劃分,無形中起到了校準(zhǔn)的效果,因此,無須提前進(jìn)行校準(zhǔn)處理。

      2 函數(shù)型數(shù)據(jù)的分步系統(tǒng)聚類算法

      基本思想:設(shè)有n個樣品,每個樣品測得p項指標(biāo),在初始時將n個樣品各自看成一類。首先,根據(jù)函數(shù)型數(shù)據(jù)的實際距離,采用自底向上聚類算法對數(shù)據(jù)進(jìn)行初步聚類;然后,計算函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)及導(dǎo)函數(shù)之間的距離,根據(jù)函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)距離對每一類中的數(shù)據(jù)進(jìn)行進(jìn)一步聚類,得到在距離上接近且同類數(shù)據(jù)具有相似形態(tài)特征的精細(xì)劃分。

      2.1 定義距離

      在聚類的過程中,函數(shù)型數(shù)據(jù)的實際距離用函數(shù)間的距離進(jìn)行度量,數(shù)據(jù)內(nèi)在特征的相似性用導(dǎo)函數(shù)距離進(jìn)行度量。

      首先定義聚類過程中的距離,設(shè)函數(shù)型數(shù)據(jù)xi(t),i=1,2,…,n在區(qū)間[t1,t2]上可積,x′i(t),i=1,2,…,n是其導(dǎo)函數(shù)。

      函數(shù)型數(shù)據(jù)x1(t)、x2(t)在區(qū)間[t1,t2]上的距離定義為[12]

      函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)x′1(t)、x′2(t)在區(qū)間[t1,t2]上的距離定義為[12]

      函數(shù)型數(shù)據(jù)xi(t),i=1,2,…,n的均值函數(shù)定義為[12]

      2.2 聚類過程

      首先將記錄到的點數(shù)據(jù)擬合為函數(shù)型數(shù)據(jù),然后針對函數(shù)型數(shù)據(jù)進(jìn)行分步系統(tǒng)聚類。聚類算法的步驟如下:

      (1)聚類。首先,根據(jù)函數(shù)型數(shù)據(jù)的實際距離對數(shù)據(jù)進(jìn)行第1步聚類。

      ①利用式(4)計算n個函數(shù)型數(shù)據(jù)兩兩之間的距離,得到數(shù)據(jù)之間的距離矩陣D(0);

      ②令s表示迭代次數(shù),k表示類的個數(shù)。初始值:s=1,k=n,n個樣品各自構(gòu)成一類,第i類記為Gi={xi(t)}(i=1,2,…,n)。此時的類間距離就是樣品間的距離;

      ③根據(jù)計算得到的距離矩陣D(s),合并類間距離最小的兩類形成一個新類。新類的中心由均值式(6)表示。令k=n—s;

      ④s=s+1。更新新生成的類的數(shù)據(jù)對象,由式(4)計算新的類中心與其他類之間的距離;

      ⑤迭代計算③和④,直到得到最佳分類個數(shù)k′。

      通過第1步聚類,將原始數(shù)據(jù)劃分為k′個新類,得到基于實際距離的聚類結(jié)果,同類中的數(shù)據(jù)能夠在距離上接近,但不能保證具有相似的形態(tài)特征。

      (2)聚類。將第1步聚類生成的k′個類看做k′組新原始數(shù)據(jù),針對每組新原始數(shù)據(jù)逐一進(jìn)行進(jìn)一步聚類。

      針對每組新原始數(shù)據(jù),計算其中函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)x′i(t),并利用式(5)計算導(dǎo)函數(shù)兩兩之間的距離,得到導(dǎo)函數(shù)距離矩陣和,根據(jù)導(dǎo)函數(shù)距離,重復(fù)第1次聚類中的5個步驟進(jìn)行第2次聚類,根據(jù)形態(tài)差異進(jìn)行更深入的劃分。

      本文算法將實際距離和導(dǎo)函數(shù)距離相結(jié)合,在不同層次上進(jìn)行聚類,在考慮函數(shù)型數(shù)據(jù)實際距離的同時,兼顧了函數(shù)型數(shù)據(jù)本身的內(nèi)在變化規(guī)律。利用該算法進(jìn)行聚類,同類函數(shù)型數(shù)據(jù)不僅在實際距離上接近,而且具有相似的變化特征。

      3 基于隨機(jī)模擬的算法評價

      為了對本文算法的有效性進(jìn)行檢驗,用Matlab[17]進(jìn)行模擬實驗。主要思想是:構(gòu)造已知劃分的函數(shù)型數(shù)據(jù),用本文算法進(jìn)行聚類分析,將生成的分類與真實分類進(jìn)行比較,對算法的有效性進(jìn)行分析。

      3.1 隨機(jī)數(shù)的生成

      函數(shù)型數(shù)據(jù)隨機(jī)數(shù)的生成和傳統(tǒng)點數(shù)據(jù)的生成過程不同,需要對點數(shù)據(jù)進(jìn)行擬合。這就要求點數(shù)據(jù)的生成是隨機(jī)的,從而保證的函數(shù)型數(shù)據(jù)具有隨機(jī)性。這里假設(shè)所有數(shù)據(jù)的變量取值范圍相同,并且在相同的時間間隔內(nèi)取值,即x坐標(biāo)相同。

      本文生成隨機(jī)函數(shù)型數(shù)據(jù)的主要方法是先隨機(jī)生成3個具有明顯劃分的函數(shù)型數(shù)據(jù),以此為中心擴(kuò)充為4類函數(shù)型數(shù)據(jù)。

      (1)生成區(qū)間中點的隨機(jī)點數(shù)據(jù)集,擬合生成原始函數(shù)型數(shù)據(jù)曲線。首先隨機(jī)生成一個包含150個二維實數(shù)數(shù)據(jù)的點數(shù)據(jù)集作為區(qū)間數(shù)據(jù)集的中點,這150個實數(shù)點由3類相互獨立的數(shù)據(jù)集組成,其中每一類各包含50個點,此即初始類別劃分情況。數(shù)據(jù)集中每個點由一個確定的變量x和一個服從標(biāo)準(zhǔn)正態(tài)分布的y軸坐標(biāo)確定,3個數(shù)據(jù)集中的點根據(jù)以下參數(shù)分別隨機(jī)產(chǎn)生:

      將生成的3個點數(shù)據(jù)集表示為(a1j,a2j,a3j,…,a50j),j=1,2,3。

      通過前面描述的函數(shù)型數(shù)據(jù)的生成方法將3個數(shù)據(jù)集分別擬合為函數(shù)型數(shù)據(jù),如圖2所示。

      圖2 原始函數(shù)型數(shù)據(jù)曲線

      由圖2可以很明顯地看出,由于均值方差的不同,3個函數(shù)型數(shù)據(jù)的取值和形態(tài)變化都有很大的差異。

      (2)產(chǎn)生隨機(jī)區(qū)間數(shù)據(jù)集,隨機(jī)產(chǎn)生3組函數(shù)型數(shù)據(jù)集。以3個數(shù)據(jù)集中的點為中心,橫坐標(biāo)不變,縱坐標(biāo)延y軸方向擴(kuò)充為區(qū)間數(shù)[yij—r,yij+r],其中r=1,在y軸方向可得到以下3個區(qū)間數(shù)據(jù)集:

      對于每個區(qū)間數(shù)據(jù)集(j=1),從每個區(qū)間數(shù)內(nèi)隨機(jī)選取1個點數(shù)據(jù),組成一個新的點數(shù)據(jù)集,重復(fù)6次,可以得到6個新點數(shù)據(jù)集,記為(b1,t,b2,t,…,b50,t),t=1,2,…,6。同樣地,對于后面2個區(qū)間數(shù)據(jù)集(j=2,3)重復(fù)上述步驟,也各得到6個新的點數(shù)據(jù)集。最終得到3×6個點數(shù)據(jù)集,共3類。利用前文描述的函數(shù)型數(shù)據(jù)生成方法將3個數(shù)據(jù)集分別擬合為函數(shù)型數(shù)據(jù)。

      (3)選取第1步生成的點數(shù)據(jù)集(a1,2,a2,2,…,a50,2),并進(jìn)行如下變化:

      其中,mi=i×0.1,i=1,2,…,6。可以生成6個點數(shù)據(jù)集,其中每個數(shù)據(jù)集中包含50個點數(shù)據(jù)。由于這6個點數(shù)據(jù)集通過平移得到,故具有相同的形態(tài)特征。同樣,根據(jù)得到的6個點數(shù)據(jù)集生成6個函數(shù)型數(shù)據(jù)。

      通過上述步驟,共得到4×6個數(shù)據(jù)點集,分為4類,并根據(jù)這些數(shù)據(jù)點集生成4×6個函數(shù)型數(shù)據(jù),如圖3所示。

      圖3 模擬實驗構(gòu)造出的函數(shù)型數(shù)據(jù)

      由圖3可見,對于前3類而言,同一類中的數(shù)據(jù)在實際距離上都很接近,第4類同第2類在距離上也很接近,但與第2類不同的是,第4類中的數(shù)據(jù)都具有相同的變化特征。

      3.2 聚類

      對構(gòu)造好的函數(shù)型數(shù)據(jù)分別利用本文算法和傳統(tǒng)算法進(jìn)行聚類,將聚類結(jié)果與真實分類進(jìn)行對比,并對兩種算法的有效性和精確度進(jìn)行比較。

      對比算法的基本步驟:將n個函數(shù)型數(shù)據(jù)看做n個原始分類,計算n個原始分類兩兩之間的距離,合并類間距離最小的兩類形成一個新類,此時新原始分類變?yōu)閚—1個;計算n—1個新分類兩兩之間的距離,合并類間距離最小的兩類再次形成一個新類,由此,新原始分類變?yōu)閚—2個;依次迭代進(jìn)行,直到得到期望的最佳分類個數(shù)。

      分別利用本文算法和傳統(tǒng)算法進(jìn)行聚類,聚類結(jié)果如圖4、5所示。

      圖4 本文算法聚類結(jié)果

      圖5 對比算法聚類結(jié)果

      3.3 評價指標(biāo)

      CR指數(shù)(Corrected Rand Index)是用來衡量同一數(shù)據(jù)集的2個不同劃分之間差異的指標(biāo),最早由Hubert等[18]提出,其定義如下:

      設(shè) 有n個 樣 品,U={u1,…,ui,…,uR},V={υ1,…,υj,…,υC}是這同一組樣品的2個不同的劃分,分別包含R類和C類,則指數(shù)

      CR指數(shù)取值在[—1,1]之間,其值越接近于1,表示U和V兩種劃分越趨于一致;反之,其值接近0或為負(fù)時說明兩種劃分差異較大。CR指數(shù)是一種外部評價指標(biāo),即通過對比聚類結(jié)果和原始給定正確的類別信息來衡量聚類性能的優(yōu)劣,其計算結(jié)果不受聚類分析算法所選擇距離度量的影響,較為公正客觀,但只能應(yīng)用于標(biāo)準(zhǔn)先驗聚類劃分已知的情況。在隨機(jī)模擬中,通常令U為原始先驗劃分,V為通過聚類分析得到的劃分結(jié)果,因此,可以利用CR指數(shù)反映它們之間的差距,指數(shù)越接近于1,表明聚類結(jié)果越接近于真實的劃分,對應(yīng)的聚類算法則更有效。

      3.4 聚類結(jié)果分析

      用CR指數(shù)衡量聚類結(jié)果,并將聚類結(jié)果與先驗類別對比,形成聚類正確率,結(jié)果如表1所示。

      表1 聚類結(jié)果對比

      由表1可以看出,本文算法聚類結(jié)果24條曲線中僅有1條劃分錯誤,準(zhǔn)確率達(dá)到95.8%,而對比算法準(zhǔn)確率僅為75%,因此,本文算法的聚類結(jié)果與實際結(jié)果更接近,要優(yōu)于傳統(tǒng)聚類算法。通過CR指數(shù)也可以看出,本文算法在對數(shù)據(jù)進(jìn)行深入挖掘時,更能充分利用函數(shù)型數(shù)據(jù)的信息對數(shù)據(jù)進(jìn)行有效的劃分。

      4 實例應(yīng)用

      4.1 聚類分析

      為驗證本文算法在實際應(yīng)用中的有效性,選取40個國家1970~2010年的人均GDP數(shù)據(jù),運用本文分步系統(tǒng)聚類算法對其進(jìn)行聚類分析。首先,根據(jù)原始數(shù)據(jù)生成函數(shù)型數(shù)據(jù)[19],如圖6所示。

      對40個國家按實際距離進(jìn)行第1步聚類,聚類結(jié)果如圖7所示。

      圖6 各國人均GDP曲線

      圖7 第1步聚類結(jié)果

      由圖7可見,第1步聚類將40個國家分為A、B、C等3類。A類為澳大利亞、丹麥、加拿大、美國。B類為奧地利、比利時、芬蘭、法國、德國、意大利、日本、荷蘭。C類為阿富汗、阿爾巴尼亞、阿爾及利亞、巴林、孟加拉共和國、不丹等。

      A類屬于發(fā)達(dá)國家,經(jīng)濟(jì)發(fā)展比較穩(wěn)定,1970~2010年人均GDP一直處于世界前列;B類也屬于發(fā)達(dá)國家,但與A類不同的是,這些國家在70年代人均GDP較低,但發(fā)展較快,GDP水平快速提高,有的甚至超過了A類國家,實際劃分也將這些國家劃分到發(fā)達(dá)國家的行列;C類國家比較多,進(jìn)行進(jìn)一步聚類可以得到更精確的結(jié)果,但是第3類國家人均GDP都比較低,繼續(xù)用實際距離進(jìn)行聚類意義不大。

      運用本文算法的第2步進(jìn)行聚類,即根據(jù)導(dǎo)函數(shù)距離進(jìn)行聚類,結(jié)果如圖8所示。

      第2步聚類將C類又分為C1和C2兩類。C1為阿富汗、阿爾巴尼亞、孟加拉共和國、不丹、中國、布基納法索等。C2為阿爾及利亞、巴林、不丹、保加利亞、哥倫比亞、埃及、加納、圭亞那、肯尼亞等。

      由圖8可見,C1類國家雖然仍屬于不發(fā)達(dá)國家,但經(jīng)濟(jì)發(fā)展十分迅速,而C2類國家的經(jīng)濟(jì)發(fā)展十分緩慢。

      圖8 最終聚類結(jié)果

      4.2 基于分步系統(tǒng)聚類算法的函數(shù)型數(shù)據(jù)補齊方法

      作為本文分步系統(tǒng)聚類算法的一個重要應(yīng)用,本文還提出了一種基于本文算法的函數(shù)型數(shù)據(jù)補齊方法。其基本思想是:首先,利用本文算法對函數(shù)型數(shù)據(jù)進(jìn)行聚類,找到與目標(biāo)函數(shù)型數(shù)據(jù)距離接近、形態(tài)特征相似的若干個同類;然后,利用同類中已知函數(shù)型數(shù)據(jù)的均值對目標(biāo)函數(shù)型數(shù)據(jù)中的缺失數(shù)據(jù)進(jìn)行補齊。該數(shù)據(jù)補齊方法根據(jù)數(shù)據(jù)變化特征和均值對缺失數(shù)據(jù)進(jìn)行補齊,是時間和空間兩方面的有效結(jié)合,不僅可以保證補齊數(shù)據(jù)在距離上與實際數(shù)據(jù)相接近,而且可以保證與原始數(shù)據(jù)保持相似的變化規(guī)律。且其將同類中所有已知函數(shù)型數(shù)據(jù)引入算法中來,能有效減少“噪聲”的影響。

      以4.1節(jié)中數(shù)據(jù)為例,假設(shè)圭亞那2000~2010年的人均GDP數(shù)據(jù)未知,圭亞那屬于C2類國家,因此,利用C2類中其他國家2000~2010年的人均GDP均值對圭亞那的人均GDP進(jìn)行補齊,實驗結(jié)果如圖9所示。

      圖9 數(shù)據(jù)補齊

      由圖9可見,預(yù)測結(jié)果曲線與實際值曲線不僅在距離上接近,而且具有相同的變化特征,表明該方法能夠?qū)瘮?shù)型數(shù)據(jù)中的缺失值進(jìn)行有效地補齊。由于實驗條件的限制,本文算法收集到的數(shù)據(jù)有限,數(shù)據(jù)量較小,實驗中未能取得非常精確的結(jié)果,就統(tǒng)計學(xué)意義上而言不夠恰當(dāng),但本部分實驗的主要目的是為了更好地描述本文提出的函數(shù)型數(shù)據(jù)補齊方法,而不在于得到精確地數(shù)據(jù)結(jié)果,在以后的研究應(yīng)用或?qū)嶋H應(yīng)用中應(yīng)選擇大數(shù)據(jù)進(jìn)行實驗,以得到更加精確的實驗結(jié)果。

      5 結(jié)語

      在對傳統(tǒng)聚類算法研究的基礎(chǔ)上,根據(jù)函數(shù)型數(shù)據(jù)的特點,將導(dǎo)函數(shù)距離引入函數(shù)型數(shù)據(jù)的聚類中來,將實際距離和導(dǎo)函數(shù)距離相結(jié)合作為聚類標(biāo)準(zhǔn),提出了基于函數(shù)型數(shù)據(jù)實際距離和導(dǎo)函數(shù)距離的分步系統(tǒng)聚類算法,使聚類結(jié)果不僅能夠在距離上接近,而且可以保證同類數(shù)據(jù)具有相似的形態(tài)特征。利用隨機(jī)模擬對算法的有效性進(jìn)行了檢驗,并針對40個國家41年的人均GDP數(shù)據(jù)進(jìn)行了實例研究,模擬實驗和實例研究結(jié)果均表明,該算法能夠?qū)瘮?shù)型數(shù)據(jù)進(jìn)行有效聚類。最后,在此基礎(chǔ)上,提出了一種基于函數(shù)型數(shù)據(jù)分步系統(tǒng)聚類算法的數(shù)據(jù)補齊方法,實例研究結(jié)果表明,該方法能夠?qū)瘮?shù)型數(shù)據(jù)進(jìn)行有效地補齊。

      猜你喜歡
      聚類距離函數(shù)
      二次函數(shù)
      第3講 “函數(shù)”復(fù)習(xí)精講
      二次函數(shù)
      函數(shù)備考精講
      算距離
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      每次失敗都會距離成功更近一步
      山東青年(2016年3期)2016-02-28 14:25:55
      基于改進(jìn)的遺傳算法的模糊聚類算法
      愛的距離
      母子健康(2015年1期)2015-02-28 11:21:33
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      吕梁市| 都昌县| 方正县| 延庆县| 会同县| 通化市| 五大连池市| 杂多县| 麟游县| 佛学| 喀喇沁旗| 梁山县| 江安县| 惠水县| 翁源县| 萝北县| 新余市| 禹州市| 泸溪县| 密云县| 老河口市| 屏山县| 隆尧县| 遵义市| 宿迁市| 门头沟区| 龙胜| 秭归县| 宝鸡市| 绥化市| 浑源县| 吴旗县| 湄潭县| 华池县| 宁明县| 邹城市| 荆州市| 贵定县| 共和县| 楚雄市| 临清市|