• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘K-Means算法在實(shí)踐應(yīng)用中的分析

      2016-08-07 16:15:34李江鵬
      大科技 2016年1期
      關(guān)鍵詞:群集數(shù)據(jù)挖掘聚類

      李江鵬

      (廣西金融職業(yè)技術(shù)學(xué)院 廣西南寧 530007)

      數(shù)據(jù)挖掘K-Means算法在實(shí)踐應(yīng)用中的分析

      李江鵬

      (廣西金融職業(yè)技術(shù)學(xué)院 廣西南寧 530007)

      在數(shù)據(jù)挖掘中,聚類分析K-Means算法幾乎是目前最主流的算法和應(yīng)用了,因?yàn)槠浼夹g(shù)的成熟和算法的可靠,并且所建模型的見解、高校、易理解和易實(shí)施,所以被廣泛應(yīng)用于商業(yè)實(shí)踐中,在數(shù)據(jù)化運(yùn)營(yíng)實(shí)踐中,我們發(fā)現(xiàn)K-Means算法有其需要重點(diǎn)注意事項(xiàng),通過(guò)優(yōu)化這些注意事項(xiàng),可以使K-Means算法更高效、應(yīng)用得更好。

      K-Means算法;聚類分析;數(shù)據(jù)挖掘

      1 K-Means算法

      K-Means聚類算法是使用最普遍的一種聚類算法。名稱中的K食指算法所有尋找的群集數(shù)。K的取值需要算法的使用者事先設(shè)定。為便于解釋,本文用二維變量下的二維圖形來(lái)展示該技術(shù)。值得注意的是,一般情況下輸入變量大都多于二維。但是,把輸入變量限定為二維可以使用二維空間的離散點(diǎn)來(lái)簡(jiǎn)單形象地說(shuō)明聚類過(guò)程,該過(guò)程對(duì)于高維變量的數(shù)據(jù)而言也相同。

      每一條記錄都被看成是一個(gè)離散點(diǎn),這也意味著所有的輸入變量都必須是數(shù)值型的。數(shù)據(jù)在散點(diǎn)圖上的分布就像云一樣。聚類算法的目標(biāo)是找到K個(gè)點(diǎn)作為群集的中心。群集的中心定義了群集:將每條記錄分配到與它最近的群集中心所在的群集中。

      很明顯,好的群集中心應(yīng)該在數(shù)據(jù)云中最密集的區(qū)域??梢詫⑷杭行牡淖罴逊峙浞绞蕉x為:使所有的數(shù)據(jù)點(diǎn)到其最近群集中心的聚類或者距離平方和最小。找到這些最優(yōu)解比較困難,K-Means算法也沒打算這樣做。相反,其開始時(shí)隨機(jī)選定一些點(diǎn)作為群集中心點(diǎn),然后采用一系列步驟加以改進(jìn)。所以在改進(jìn)的過(guò)程中就有一些需要注意的事項(xiàng)。

      2 K-Means算法在實(shí)踐應(yīng)用中需要重點(diǎn)注意的事項(xiàng)

      2.1 如何處理數(shù)據(jù)噪聲和異常值

      K-Means算法對(duì)噪聲和異常值是非常敏感的,這些個(gè)別數(shù)據(jù)對(duì)于平均值的影響非常大,相對(duì)而言,K-中心點(diǎn)的方法不像K-Means算法,它不是求樣本的平均值,而是用類中最接近于中心點(diǎn)的對(duì)象來(lái)代表類,因此K-中心點(diǎn)的方法對(duì)于噪聲和異常值沒有K-Means算法那么敏感。鑒于K-Means算法的這一局限性,我們應(yīng)用該算法時(shí)需要特別注意這些數(shù)據(jù)噪聲和異常值,常用處理方法如下:

      (1)直接刪除那些比其他任何數(shù)據(jù)點(diǎn)都要遠(yuǎn)離聚類中心點(diǎn)的異常值。為了防止誤刪的情況發(fā)生,數(shù)據(jù)挖掘中需要在多次的聚類循環(huán)中監(jiān)控這些異常值,然后依據(jù)業(yè)務(wù)邏輯與多次的循環(huán)結(jié)果進(jìn)行對(duì)比,再?zèng)Q定是否刪除這些異常值。

      (2)隨機(jī)抽樣的方法也可以較好地規(guī)避數(shù)據(jù)噪聲的影響。因?yàn)槭请S機(jī)抽樣,作為稀有事件的數(shù)據(jù)噪聲和異常值能被隨機(jī)抽進(jìn)樣本中的概率會(huì)很小,這樣隨機(jī)抽出的樣本就比較干凈。針對(duì)該隨機(jī)樣本進(jìn)行聚類分析時(shí)不僅可以避免數(shù)據(jù)噪聲的誤導(dǎo)和干擾,而且其聚類后的結(jié)果作為聚類模型可以應(yīng)用到生育的數(shù)據(jù)集中,完成對(duì)整個(gè)數(shù)據(jù)集的聚類劃分。利用這種隨機(jī)抽樣方式得到的聚類模型,在應(yīng)用于整個(gè)數(shù)據(jù)集時(shí)至少有以下兩種方式:

      ①直接用該聚類模型對(duì)剩余的數(shù)據(jù)集進(jìn)行判斷,也就是把剩余的數(shù)據(jù)分配給那些離他們最近的聚類中心,這種方法最簡(jiǎn)單、最直觀、最快捷。

      ②利用監(jiān)督學(xué)習(xí)中的分類器的原理,每個(gè)聚類被認(rèn)為是一個(gè)類別,已經(jīng)參與聚類的這些隨機(jī)抽樣數(shù)據(jù)則被看作是學(xué)習(xí)的樣本,由此產(chǎn)生的分類器可以用于判斷剩余的那些數(shù)據(jù)點(diǎn)最適合放進(jìn)那個(gè)類別或者那個(gè)聚類群體中。這種方式較第一種方式來(lái)說(shuō)比較費(fèi)時(shí),尤其是當(dāng)聚類出來(lái)的群體較多的時(shí)候,利用分類器的原理去分別判斷時(shí)會(huì)更加耗時(shí)。

      2.2 數(shù)據(jù)標(biāo)準(zhǔn)化

      在數(shù)據(jù)化運(yùn)營(yíng)的商業(yè)實(shí)踐中,參與聚類的變量絕大多數(shù)都是區(qū)間型變量,不同區(qū)間型變量之間區(qū)間型變量之間的單位數(shù)量不同,如果不加處理直接進(jìn)行聚類,很容易造成聚類結(jié)果的失真。比如,長(zhǎng)度單位有的是公里,有的是毫米;質(zhì)量單位有的是噸,有的是克;一般而言,變量的單位越小,變量可能的值域就越大,對(duì)聚類結(jié)果的影響也就越大。為了避免對(duì)度量單位選擇的依賴,在聚類之前所才去的一個(gè)重要的技術(shù)措施就是進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。

      數(shù)據(jù)的標(biāo)準(zhǔn)化有多種不同的方式,其中,以標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化最常用。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,又叫Z-Score標(biāo)準(zhǔn)化,經(jīng)過(guò)這種方法處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正太分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化公式如下:

      式中:μ-所有樣本數(shù)據(jù)的均值;σ-所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。

      2.3 聚類變量的少而精

      在聚類分析中,參與聚類的指標(biāo)變量不能太多,如果太多,一方面會(huì)顯著增加運(yùn)算的時(shí)間,更重要的是變量之間或多或少的相關(guān)性會(huì)嚴(yán)重?fù)p害聚類的效果,并且太多的變量參與期中后會(huì)使隨后的聚類群體的業(yè)務(wù)解釋變得很復(fù)雜。鑒于此,聚類之前,如何精心挑選特定的少數(shù)變量參與聚類是聚類分析技術(shù)應(yīng)用的有一個(gè)關(guān)鍵點(diǎn)。

      那么要如何落實(shí)聚類變量少而精的原則呢?本文提出以下幾點(diǎn):

      (1)緊緊圍繞具體分析目的和業(yè)務(wù)需求挑選聚類變量。在分析展開之前,密切保持與業(yè)務(wù)需求方的溝通,借鑒業(yè)務(wù)方的業(yè)務(wù)經(jīng)驗(yàn)和業(yè)務(wù)直覺,直接排除大量無(wú)關(guān)的指標(biāo)變量,鎖定與項(xiàng)目需求關(guān)系最密切的核心變量。任何數(shù)據(jù)挖掘項(xiàng)目都是有明確挖掘任務(wù)定義的,聚類分析也如此,在聚類之前應(yīng)該明確的聚類應(yīng)用目的。然后根據(jù)這個(gè)目的挑選一些相應(yīng)的字段。比如:如果在10000個(gè)用戶樣本中,想從產(chǎn)品使用習(xí)慣不同的角度來(lái)細(xì)分群體,以此調(diào)整我們的客戶服務(wù),可以優(yōu)先考慮把產(chǎn)品使用頻率,產(chǎn)品檔次、主要損耗件的類別等作為其中的聚類字段;而如果要從不同的購(gòu)買習(xí)慣的角度來(lái)劃分群體,以供營(yíng)銷策劃參考,則會(huì)把付費(fèi)的方式、產(chǎn)品檔次、是否響應(yīng)促銷等作為優(yōu)先考慮的聚類字段。這主要是想說(shuō)明,對(duì)于任何具體的聚類項(xiàng)目,都應(yīng)該事先在腦海里有一些相應(yīng)的基本核心字段可以與該項(xiàng)目相匹配,而不能不管是什么項(xiàng)目、什么任務(wù)、什么目的,把所有變量統(tǒng)統(tǒng)放進(jìn)去,這樣做是沒有任何意義的。

      (2)通過(guò)相關(guān)性監(jiān)測(cè),可防止相關(guān)性高的變量同時(shí)進(jìn)入聚類計(jì)算。比如:互聯(lián)網(wǎng)行業(yè)的分析中,登陸次數(shù)、在線時(shí)長(zhǎng)、PV瀏覽量等這些變量相互之間都是有明顯關(guān)系的,只取其中一個(gè)變量就足夠了。

      (3)數(shù)據(jù)分析也好,數(shù)據(jù)挖掘也好,其本身是充滿想象藝術(shù)的,所謂一半是科學(xué)、一半是藝術(shù),這是聚類分析在實(shí)踐中應(yīng)用的特點(diǎn)。數(shù)據(jù)分析在很多時(shí)候是需要一些衍生變量來(lái)畫龍點(diǎn)睛的。我們常常容易從現(xiàn)有的數(shù)據(jù)庫(kù)中提取縣城的字段,而經(jīng)常忘記一些衍生的新字段,比如比率。很多時(shí)候,我們的分析中有太多直接提取的絕對(duì)值字段,而常會(huì)忘記增添一些有價(jià)值的相對(duì)值字段,什么時(shí)候要考慮哪些有價(jià)值的比率字段,這需要業(yè)務(wù)知識(shí)和挖掘經(jīng)驗(yàn)來(lái)支持的。

      (4)主要成分分析,作為一種常用的降維方法,可以在聚類之前進(jìn)行數(shù)據(jù)清理,幫助有效精簡(jiǎn)變量的數(shù)量,確保參與聚類運(yùn)算變量的少而精。然而任何事物都是具有兩面性的,主成分分析在幫助聚類算法精簡(jiǎn)輸入變量數(shù)目的同時(shí),也會(huì)造成聚類結(jié)論的可解釋性、可理解性上相對(duì)于原始變量而言更加復(fù)雜,在直觀上不容易理解。

      3 總結(jié)與展望

      以上的內(nèi)容總結(jié)的聚類分析都是在典型業(yè)務(wù)場(chǎng)景中的應(yīng)用。除此之外,聚類分析還有更多的擴(kuò)展應(yīng)用,這些擴(kuò)展應(yīng)用有的能顯著提升單純聚類分析所無(wú)法實(shí)現(xiàn)的商業(yè)應(yīng)用價(jià)值,有的可以作為輔助工具提升其他建模工具的應(yīng)用效果,而效果很顯著,還有的突破了常規(guī)聚類應(yīng)用的場(chǎng)景,參與到個(gè)性化推薦的應(yīng)用中了。聚類分析技術(shù)的這些擴(kuò)展應(yīng)用,生動(dòng)體現(xiàn)了數(shù)據(jù)挖掘分析技術(shù)在業(yè)務(wù)實(shí)踐中的生命力,也對(duì)人們提出了自我專業(yè)提升的方向和思路,即與時(shí)俱進(jìn)、緊貼業(yè)務(wù)需求、以不變的聚類原理,從容應(yīng)對(duì)萬(wàn)變的業(yè)務(wù)員場(chǎng)景和業(yè)務(wù)需求。

      [1]張立.基于新聞評(píng)論數(shù)據(jù)的K-means聚類算法的研究[D].太原理工大學(xué),2010.

      [2]于劍,程乾生.模糊聚類方法中的最佳聚類數(shù)的搜索范圍[J].中國(guó)科學(xué):E 輯,2002,32(2):274~280.

      [3]楊燕,薪蕃.微粒群優(yōu)化算法研究現(xiàn)狀及其發(fā)展[J].計(jì)算機(jī)工程,2004,30(21).

      [4]張麗平,俞歡軍,陳德釗,等.粒子群優(yōu)化算法的分析與改進(jìn)[J].信息與控制,2004,33(5).

      TP311

      A

      1004-7344(2016)01-0285-02

      2015-12-25

      猜你喜歡
      群集數(shù)據(jù)挖掘聚類
      Cecilia Chiang, pioneer of Chinese cuisine
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于DBSACN聚類算法的XML文檔聚類
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于自組織結(jié)對(duì)行為的群集機(jī)器人分群控制方法
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      淺談ODX與動(dòng)態(tài)群集
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      西充县| 赤壁市| 彩票| 内丘县| 乌海市| 洪泽县| 焉耆| 凌源市| 夏邑县| 类乌齐县| 酉阳| 禄劝| 贵德县| 兰坪| 荃湾区| 泊头市| 长阳| 天柱县| 四川省| 汨罗市| 都江堰市| 江油市| 寿宁县| 固阳县| 六盘水市| 义马市| 微山县| 济阳县| 麦盖提县| 耒阳市| 龙岩市| 涞水县| 嘉鱼县| 罗江县| 舒城县| 纳雍县| 扎兰屯市| 马山县| 台州市| 柳州市| 牡丹江市|