黃鴻基 錢圳冰 馮帆 周行洲
[摘要]文章研究的是葡萄酒的根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量,對這些釀酒葡萄進(jìn)行分級和分析釀酒葡萄及葡萄酒的理化指標(biāo)對葡萄酒質(zhì)量的影響。首先研究篩選了一組合理的葡萄酒樣本進(jìn)行了標(biāo)準(zhǔn)化處理。分別建立了K-means分析模型去進(jìn)行樣本分析。為了得到明確的評估指標(biāo),研究改進(jìn)了K-means算法,結(jié)合主成分分析的原理,得到了PCA-K-means模型。研究把釀酒葡萄分成了四類,而葡萄酒分成了五類。
[關(guān)鍵詞]聚類分析;主成分分析;K-means算法
[DOI]1013939/jcnkizgsc201716196
1引言
釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。研究采用已有數(shù)據(jù),根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對這些釀酒葡萄進(jìn)行分級。
2基于K-means算法對釀酒葡萄進(jìn)行分級
21算法模型分析
研究要通過釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對釀酒的葡萄進(jìn)行合理的分級。首先使用我們之前采集到的評酒員給出的數(shù)據(jù)。同時(shí),考慮到葡萄酒的質(zhì)量和釀酒葡萄理化指標(biāo)所包括的數(shù)據(jù)量較大且類型較多,而且這些變量的量綱不同且測量值范圍相差懸殊,研究應(yīng)該對所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。接著,基于本問題要求對不同種類的大數(shù)據(jù)進(jìn)行合理的分類,研究采用聚類分析相關(guān)理論建立模型。聚類分析可以很好地描述事物之間的相似程度,適用于解決多變量且有著不同程度的界限的分類問題。考慮到主成分分析能夠很好地通過權(quán)重和貢獻(xiàn)率得出比較準(zhǔn)確的綜合評判指標(biāo),研究對K-means分析模型進(jìn)行合理的改進(jìn),得到PCA-K-means復(fù)合模型,從而建立模型并得到準(zhǔn)確的分級結(jié)果。
22模型的建立
221數(shù)據(jù)的標(biāo)準(zhǔn)化處理
首先,根據(jù)葡萄酒行業(yè)相關(guān)的質(zhì)量標(biāo)準(zhǔn),我們篩選了氨基酸總量、蛋白質(zhì)、VC含量、花色苷鮮重、酒石酸、蘋果酸、檸檬酸和多酚氧化酶活力等重要指標(biāo)進(jìn)行分析。其次,為了消除它們之間量綱和數(shù)據(jù)變化范圍不同造成的影響,我們對這些數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。
yj=[SX(]xj-xmin[]xmax-xmin[SX)](1)
其中,xj代表第j個(gè)數(shù)據(jù),xmin、xmax分別代表所有數(shù)據(jù)的最小值和最大值。yj表示經(jīng)過標(biāo)準(zhǔn)化處理的數(shù)據(jù)。
222算法模型建立
我們分別以第二組葡萄酒質(zhì)量和釀酒葡萄的相關(guān)指標(biāo)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)為樣本,進(jìn)行聚類分析。在這里,我們分別基于K-means分析合理地建立了模型。
為了能夠更好地確定各個(gè)理化指標(biāo)之間的權(quán)重,從而確定它們的累計(jì)貢獻(xiàn)率,我們引入PCA(主成分分析)對K-means聚類分析算法進(jìn)行優(yōu)化。
PCA-K-means聚類算法的具體流程如下:
(1)我們對于給定的一個(gè)8維數(shù)據(jù)點(diǎn)數(shù)據(jù)集
X={x1, x2, …, xi, x8}, xi∈[WTHZ]R[WTBZ]
其中xi∈R,代表8種理化指標(biāo),以及要生成的數(shù)據(jù)子集的數(shù)目 K,K-Means 聚類算法將數(shù)據(jù)對象組織為 K 個(gè)劃分。在問題二中,K分別為27(紅葡萄酒)、28(白葡萄酒),即每組的樣本總數(shù)。C={ck, i=1, 2, …, k},每個(gè)劃分代表一個(gè)類ck,每個(gè)類ck有一個(gè)類別中心μi。
(2)考慮到歐氏距離在對坐標(biāo)軸做正交旋轉(zhuǎn)時(shí),歐氏距離是不變的,即當(dāng)我們對原坐標(biāo)系進(jìn)行平緩和旋轉(zhuǎn)變換后,樣本點(diǎn)間的距離和變換前完全相同。因此我們選取歐氏距離作為相似性和距離判斷準(zhǔn)則,計(jì)算該類內(nèi)各點(diǎn)到聚類中心μi的距離平方和。
同時(shí),根據(jù)最小二乘法和拉格朗日原理可知,聚類中心μi應(yīng)該取為類別ck 類各數(shù)據(jù)點(diǎn)的平均值。
(4)選擇兩個(gè)主成分,計(jì)算綜合評價(jià)值,并計(jì)算綜合得分。
結(jié)合上述K-means聚類算法流程,我們建立的聚類模型如下:
①分別計(jì)算紅葡萄酒和白葡萄酒的所有樣本點(diǎn)n兩兩之間的距離d(xi, xj),記為矩陣D=[d(xi, xj)]n×n。
②首先構(gòu)造n個(gè)類,每一類只包含一個(gè)樣本點(diǎn),每一個(gè)平臺(tái)的高度均為0。
③合并距離最佳的兩類為新類,并且以這兩類間的距離值作為聚類圖的平臺(tái)高度。
④計(jì)算新類與當(dāng)前各類的距離,若類的個(gè)數(shù)已經(jīng)為1,轉(zhuǎn)入步驟E,否則返回步驟C。
⑤畫聚類圖。
⑥確定類的個(gè)數(shù)和類,根據(jù)評分結(jié)果對紅、白葡萄酒分別進(jìn)行分級。
23算法模型的求解
根據(jù)上述的K-means聚類分析方法,借助計(jì)算機(jī)模擬,我們分別得到了紅葡萄酒和白葡萄酒聚類分析的結(jié)果。
根據(jù)葡萄酒的質(zhì)量,我們對葡萄酒進(jìn)行了分類,分類結(jié)果如圖1和圖2所示。
我們對類間距離的計(jì)算采用了類平均法,并得到了聚類分析樹形圖,如圖2所示。從圖1的K-means聚類評分結(jié)果和圖2的標(biāo)準(zhǔn)距離我們可以看出,葡萄酒質(zhì)量大體上可以分為五個(gè)等級。結(jié)合下表我們可以發(fā)現(xiàn),第五個(gè)等級的葡萄酒只有樣本12,即第12個(gè)樣本。同時(shí),處于等級較低的葡萄酒樣本數(shù)較多。
同時(shí)由下表可以看出,紅葡萄酒中的27個(gè)樣本可以分為五個(gè)等級。同時(shí),質(zhì)量處于第二類的紅葡萄酒樣品數(shù)最多。若定義第一類代表第五等級,第二類代表第四等級,依次類推,結(jié)合圖2,我們得到不同等級的紅葡萄酒樣品所占比重的分布情況:第四等級>第五等級>第二等級>第三等級>第一等級。同時(shí),我們可得,這27個(gè)樣品的紅葡萄酒的質(zhì)量大部分處于相對較低的水平,且等級最高的紅葡萄酒只有樣品12一個(gè)樣品。
基于我們建立的PCA-K-means分析模型,根據(jù)篩選出來的相關(guān)理化指標(biāo),通過MATLAB數(shù)值運(yùn)算,我們分別對紅葡萄酒、白葡萄酒的釀酒葡萄的質(zhì)量進(jìn)行了分類。
3結(jié)論
基于PCA-K-means分析模型,根據(jù)篩選出來的相關(guān)理化指標(biāo),可以對不同種類的葡萄酒的釀酒葡萄之類的質(zhì)量進(jìn)行了分類。
參考文獻(xiàn):
[1]杜強(qiáng),賈麗艷,嚴(yán)先鋒SPSS統(tǒng)計(jì)分析從入門到精通[M].北京:人民郵電出版社,2016
[2]孫庚,馮艷紅,郭顯久,等K-means聚類算法研究[J].長春師范大學(xué)學(xué)報(bào),2011,30(2):1-4
[3]周世兵聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D].江蘇:江南大學(xué),2011
[4]李運(yùn),李記明,姜忠軍統(tǒng)計(jì)分析在葡萄酒質(zhì)量評價(jià)中的應(yīng)用[J].釀酒科技,2009(4):79-82