• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)后的K—means算法研究根據(jù)釀酒葡萄和葡萄酒的理化指標(biāo)對紅葡萄酒的分級方法

    2017-06-19 21:47:52黃鴻基錢圳冰馮帆周行洲
    中國市場 2017年16期
    關(guān)鍵詞:means算法聚類分析主成分分析

    黃鴻基 錢圳冰 馮帆 周行洲

    [摘要]文章研究的是葡萄酒的根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量,對這些釀酒葡萄進(jìn)行分級和分析釀酒葡萄及葡萄酒的理化指標(biāo)對葡萄酒質(zhì)量的影響。首先研究篩選了一組合理的葡萄酒樣本進(jìn)行了標(biāo)準(zhǔn)化處理。分別建立了K-means分析模型去進(jìn)行樣本分析。為了得到明確的評估指標(biāo),研究改進(jìn)了K-means算法,結(jié)合主成分分析的原理,得到了PCA-K-means模型。研究把釀酒葡萄分成了四類,而葡萄酒分成了五類。

    [關(guān)鍵詞]聚類分析;主成分分析;K-means算法

    [DOI]1013939/jcnkizgsc201716196

    1引言

    釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。研究采用已有數(shù)據(jù),根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對這些釀酒葡萄進(jìn)行分級。

    2基于K-means算法對釀酒葡萄進(jìn)行分級

    21算法模型分析

    研究要通過釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對釀酒的葡萄進(jìn)行合理的分級。首先使用我們之前采集到的評酒員給出的數(shù)據(jù)。同時(shí),考慮到葡萄酒的質(zhì)量和釀酒葡萄理化指標(biāo)所包括的數(shù)據(jù)量較大且類型較多,而且這些變量的量綱不同且測量值范圍相差懸殊,研究應(yīng)該對所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。接著,基于本問題要求對不同種類的大數(shù)據(jù)進(jìn)行合理的分類,研究采用聚類分析相關(guān)理論建立模型。聚類分析可以很好地描述事物之間的相似程度,適用于解決多變量且有著不同程度的界限的分類問題。考慮到主成分分析能夠很好地通過權(quán)重和貢獻(xiàn)率得出比較準(zhǔn)確的綜合評判指標(biāo),研究對K-means分析模型進(jìn)行合理的改進(jìn),得到PCA-K-means復(fù)合模型,從而建立模型并得到準(zhǔn)確的分級結(jié)果。

    22模型的建立

    221數(shù)據(jù)的標(biāo)準(zhǔn)化處理

    首先,根據(jù)葡萄酒行業(yè)相關(guān)的質(zhì)量標(biāo)準(zhǔn),我們篩選了氨基酸總量、蛋白質(zhì)、VC含量、花色苷鮮重、酒石酸、蘋果酸、檸檬酸和多酚氧化酶活力等重要指標(biāo)進(jìn)行分析。其次,為了消除它們之間量綱和數(shù)據(jù)變化范圍不同造成的影響,我們對這些數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。

    yj=[SX(]xj-xmin[]xmax-xmin[SX)](1)

    其中,xj代表第j個(gè)數(shù)據(jù),xmin、xmax分別代表所有數(shù)據(jù)的最小值和最大值。yj表示經(jīng)過標(biāo)準(zhǔn)化處理的數(shù)據(jù)。

    222算法模型建立

    我們分別以第二組葡萄酒質(zhì)量和釀酒葡萄的相關(guān)指標(biāo)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)為樣本,進(jìn)行聚類分析。在這里,我們分別基于K-means分析合理地建立了模型。

    為了能夠更好地確定各個(gè)理化指標(biāo)之間的權(quán)重,從而確定它們的累計(jì)貢獻(xiàn)率,我們引入PCA(主成分分析)對K-means聚類分析算法進(jìn)行優(yōu)化。

    PCA-K-means聚類算法的具體流程如下:

    (1)我們對于給定的一個(gè)8維數(shù)據(jù)點(diǎn)數(shù)據(jù)集

    X={x1, x2, …, xi, x8}, xi∈[WTHZ]R[WTBZ]

    其中xi∈R,代表8種理化指標(biāo),以及要生成的數(shù)據(jù)子集的數(shù)目 K,K-Means 聚類算法將數(shù)據(jù)對象組織為 K 個(gè)劃分。在問題二中,K分別為27(紅葡萄酒)、28(白葡萄酒),即每組的樣本總數(shù)。C={ck, i=1, 2, …, k},每個(gè)劃分代表一個(gè)類ck,每個(gè)類ck有一個(gè)類別中心μi。

    (2)考慮到歐氏距離在對坐標(biāo)軸做正交旋轉(zhuǎn)時(shí),歐氏距離是不變的,即當(dāng)我們對原坐標(biāo)系進(jìn)行平緩和旋轉(zhuǎn)變換后,樣本點(diǎn)間的距離和變換前完全相同。因此我們選取歐氏距離作為相似性和距離判斷準(zhǔn)則,計(jì)算該類內(nèi)各點(diǎn)到聚類中心μi的距離平方和。

    同時(shí),根據(jù)最小二乘法和拉格朗日原理可知,聚類中心μi應(yīng)該取為類別ck 類各數(shù)據(jù)點(diǎn)的平均值。

    (4)選擇兩個(gè)主成分,計(jì)算綜合評價(jià)值,并計(jì)算綜合得分。

    結(jié)合上述K-means聚類算法流程,我們建立的聚類模型如下:

    ①分別計(jì)算紅葡萄酒和白葡萄酒的所有樣本點(diǎn)n兩兩之間的距離d(xi, xj),記為矩陣D=[d(xi, xj)]n×n。

    ②首先構(gòu)造n個(gè)類,每一類只包含一個(gè)樣本點(diǎn),每一個(gè)平臺(tái)的高度均為0。

    ③合并距離最佳的兩類為新類,并且以這兩類間的距離值作為聚類圖的平臺(tái)高度。

    ④計(jì)算新類與當(dāng)前各類的距離,若類的個(gè)數(shù)已經(jīng)為1,轉(zhuǎn)入步驟E,否則返回步驟C。

    ⑤畫聚類圖。

    ⑥確定類的個(gè)數(shù)和類,根據(jù)評分結(jié)果對紅、白葡萄酒分別進(jìn)行分級。

    23算法模型的求解

    根據(jù)上述的K-means聚類分析方法,借助計(jì)算機(jī)模擬,我們分別得到了紅葡萄酒和白葡萄酒聚類分析的結(jié)果。

    根據(jù)葡萄酒的質(zhì)量,我們對葡萄酒進(jìn)行了分類,分類結(jié)果如圖1和圖2所示。

    我們對類間距離的計(jì)算采用了類平均法,并得到了聚類分析樹形圖,如圖2所示。從圖1的K-means聚類評分結(jié)果和圖2的標(biāo)準(zhǔn)距離我們可以看出,葡萄酒質(zhì)量大體上可以分為五個(gè)等級。結(jié)合下表我們可以發(fā)現(xiàn),第五個(gè)等級的葡萄酒只有樣本12,即第12個(gè)樣本。同時(shí),處于等級較低的葡萄酒樣本數(shù)較多。

    同時(shí)由下表可以看出,紅葡萄酒中的27個(gè)樣本可以分為五個(gè)等級。同時(shí),質(zhì)量處于第二類的紅葡萄酒樣品數(shù)最多。若定義第一類代表第五等級,第二類代表第四等級,依次類推,結(jié)合圖2,我們得到不同等級的紅葡萄酒樣品所占比重的分布情況:第四等級>第五等級>第二等級>第三等級>第一等級。同時(shí),我們可得,這27個(gè)樣品的紅葡萄酒的質(zhì)量大部分處于相對較低的水平,且等級最高的紅葡萄酒只有樣品12一個(gè)樣品。

    基于我們建立的PCA-K-means分析模型,根據(jù)篩選出來的相關(guān)理化指標(biāo),通過MATLAB數(shù)值運(yùn)算,我們分別對紅葡萄酒、白葡萄酒的釀酒葡萄的質(zhì)量進(jìn)行了分類。

    3結(jié)論

    基于PCA-K-means分析模型,根據(jù)篩選出來的相關(guān)理化指標(biāo),可以對不同種類的葡萄酒的釀酒葡萄之類的質(zhì)量進(jìn)行了分類。

    參考文獻(xiàn):

    [1]杜強(qiáng),賈麗艷,嚴(yán)先鋒SPSS統(tǒng)計(jì)分析從入門到精通[M].北京:人民郵電出版社,2016

    [2]孫庚,馮艷紅,郭顯久,等K-means聚類算法研究[J].長春師范大學(xué)學(xué)報(bào),2011,30(2):1-4

    [3]周世兵聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D].江蘇:江南大學(xué),2011

    [4]李運(yùn),李記明,姜忠軍統(tǒng)計(jì)分析在葡萄酒質(zhì)量評價(jià)中的應(yīng)用[J].釀酒科技,2009(4):79-82

    猜你喜歡
    means算法聚類分析主成分分析
    主成分分析法在大學(xué)英語寫作評價(jià)中的應(yīng)用
    農(nóng)村居民家庭人均生活消費(fèi)支出分析
    江蘇省客源市場影響因素研究
    SPSS在環(huán)境地球化學(xué)中的應(yīng)用
    考試周刊(2016年84期)2016-11-11 23:57:34
    長沙建設(shè)國家中心城市的瓶頸及其解決路徑
    基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
    中國市場(2016年33期)2016-10-18 12:16:58
    基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
    科技視界(2016年20期)2016-09-29 12:32:48
    基于K—Means聚類算法入侵檢測系統(tǒng)研究
    基于Weka的Apriori算法在原油產(chǎn)量預(yù)測中的應(yīng)用
    “縣級供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計(jì)一套”表輔助決策模式研究
    大新县| 清镇市| 五大连池市| 和静县| 叙永县| 新密市| 达尔| 元朗区| 孝昌县| 塔河县| 申扎县| 临泉县| 合作市| 高青县| 亚东县| 武强县| 额尔古纳市| 安塞县| 公主岭市| 绵阳市| 兰坪| 延寿县| 大英县| 察隅县| 宁海县| 武平县| 泽普县| 五原县| 鹤壁市| 武冈市| 留坝县| 汽车| 左权县| 齐齐哈尔市| 综艺| 阿勒泰市| 辛集市| 海伦市| 盐津县| 留坝县| 景泰县|