魏舜洋,石國良
(中國傳媒大學(xué)理工學(xué)部,北京 100024)
葡萄酒是一種以新鮮的葡萄為原料,經(jīng)酒精發(fā)酵制成的酒精含量不低于8.5%的飲料酒,是國際酒類中僅僅次于啤酒的第二大流行飲料酒[1]。葡萄酒中含有許多人體不可缺少的營養(yǎng)成分,如糖類,維生素,氨基酸,有機(jī)酸等。正是由于葡萄酒對人體的這些益處,葡萄酒消費(fèi)量與日俱增。但是目前市場上的葡萄酒良莠不齊,人們也越來越關(guān)注葡萄酒質(zhì)量的鑒定。而目前葡萄酒質(zhì)量的鑒別主要是靠感官品嘗和儀器分析來確定,但這兩種方法都存在著缺陷。感官品嘗需要專業(yè)的品酒師,一般人無法做到,借助液相色譜儀、原子吸收光譜、質(zhì)譜分析儀等儀器分析程序比較復(fù)雜,使用的費(fèi)用昂貴,且不能達(dá)到實(shí)際應(yīng)用中實(shí)時、快捷的要求,因此這兩種方法都不太適合大規(guī)模的使用。本文主要將模糊聚類的方法運(yùn)用到了葡萄酒分類的鑒別中,對模糊聚類分析方法用于葡萄酒分類進(jìn)行探討。本文數(shù)據(jù)基于2012年全國大學(xué)生數(shù)學(xué)建模競賽A題附件2所給的數(shù)據(jù)分析如何運(yùn)用模糊聚類分析[2]的方法來根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對這些釀酒葡萄進(jìn)行分類。
模糊聚類分析,又稱為動態(tài)聚類法。當(dāng)選定一批聚類中心時,其指標(biāo)能夠反映該類的特征,將樣本向最近的聚類中心去聚類。再根據(jù)分類的結(jié)果來確定新的聚類中心,其各項(xiàng)指標(biāo)就為該類中所有樣本的相應(yīng)指標(biāo)的平均值。然后計(jì)算出前后兩聚類中心的差異,比如差異大于某個值時,說明分類不合理,需要修改分類,即以新的聚類中心來代替舊的聚類中心,直到前后兩聚類中心的差異小于某個值時,認(rèn)為分類合理,從而停止分類過程。
本文所采用的數(shù)據(jù)基于2012年全國大學(xué)生數(shù)學(xué)建模競賽A題附件2所給的數(shù)據(jù),給出了紅葡萄酒和白葡萄的釀酒葡萄的理化指標(biāo),而本文主要針對其中一種葡萄酒來研究模糊聚類分析在葡萄酒的分類中的應(yīng)用。本文選擇了紅葡萄酒,其中有27個紅葡萄酒樣品,與之相聯(lián)系有9個理化指標(biāo);將數(shù)據(jù)進(jìn)行清洗和處理,得到數(shù)據(jù)見表1。
表1 紅葡萄酒的理化指標(biāo)(部分)
從表1,我們很容易發(fā)現(xiàn)這些釀酒葡萄的理化指標(biāo)的單位不一致,即每個指標(biāo)單位和數(shù)量級都存在著差異,我們就不能直接進(jìn)行比較。若直接運(yùn)用這些理化指標(biāo)的數(shù)據(jù)進(jìn)行分析,很可能會突出某些數(shù)量級大的指標(biāo)在分類中的權(quán)重卻忽視了數(shù)量級較小的特征性理化指標(biāo),導(dǎo)致了換一個單位就會將聚類結(jié)果推翻,得到不同的結(jié)果。所以,在聚類分析前,我們應(yīng)該對這些數(shù)據(jù)進(jìn)行量綱處理,這樣每一種特征的理化指標(biāo)值都會統(tǒng)一于一個具有可比較性的特定范圍內(nèi)。為了使不同的量綱的量也能進(jìn)行比較,通常需要對數(shù)據(jù)作適當(dāng)?shù)淖儞Q。
第一步:數(shù)據(jù)標(biāo)準(zhǔn)化
設(shè)論域 U={x1,x2,…,xn}為被分類的對象,每個對象又由m個指標(biāo)表示其性狀,即xi=(xi1,xi2,…,xim)(i=1,2,…,n),于是得到了原始數(shù)據(jù)矩陣為
通常根據(jù)模糊矩陣的要求,運(yùn)用數(shù)據(jù)標(biāo)準(zhǔn)化方法將數(shù)據(jù)壓縮到區(qū)間[0,1]上[3]。樣本的數(shù)據(jù)標(biāo)準(zhǔn)化方法有許多種,平移標(biāo)準(zhǔn)差變換、平移極差變換、對數(shù)變換等都是常用的數(shù)據(jù)處理方法。
本文采用的是平移極差變換,
設(shè)論域 U={x1,x2,…,xn},xi=(xi1,xi2,…,xim),建立模糊相似矩陣和xi與xj的相似程度rij=R(xi,xj)。相似關(guān)系R是衡量樣本之間相似度的一種模糊度量的方法,是模糊相似矩陣。
直接距離法:rij=1 -cd(xi,xj),
其中 c為選取適當(dāng)?shù)膮?shù),使得0≤rij≤1,d(xi,xj)表示xi與xj的距離。常采用的距離有海明(Hamming)距離、歐幾里得(Euclid)距離、切比雪夫(Chebyshev)距離[4]等。
本文采用的是海明距離法,選取合適的常數(shù)c,使得 0≤rij≤1
將釀酒葡萄的理化指標(biāo)數(shù)據(jù)通過一定的數(shù)理統(tǒng)計(jì)的方法進(jìn)行預(yù)處理后,使它們具有統(tǒng)一的度量與可比性,可以通過以上模型的計(jì)算方法,把數(shù)據(jù)代入數(shù)據(jù)原始的矩陣,進(jìn)行計(jì)算。
第三步:聚類(求動態(tài)聚類圖)
由模糊相似矩陣R={rij}n×n構(gòu)建模糊等價矩陣,根據(jù)公式,當(dāng)U有限時,模糊相似矩陣R的傳遞閉包t(R)=Rk,(k>n)定是模糊等價矩陣 R*,因此,用平分法求:計(jì)算 R2=R·R,R4=R2·R2,…,直到 R2n=Rn=Rn,則 R*=Rn。
在模糊聚類中,并沒有預(yù)先指定聚類數(shù)量,數(shù)據(jù)是根據(jù)自身的特征自動聚成不同類型的類。若輸入不同的值,便會得到不同的聚類結(jié)果,這也是模糊聚類的特征。
相關(guān)分析[5]是研究變量之間相關(guān)關(guān)系的一種統(tǒng)計(jì)分析方法,它可以衡量兩個變量之間的相關(guān)密切程度,數(shù)據(jù)(x1,y1),(x2,y2),…(xn,yn).
由于葡萄酒質(zhì)量和釀就葡萄質(zhì)量密切相關(guān),因此對葡萄酒分類時要考慮與葡萄酒有顯著相關(guān)的釀酒葡萄的理化指標(biāo)。通過相關(guān)性分析可以找到與葡萄酒有顯著相關(guān)的釀酒葡萄的理化指標(biāo),一方面,這些指標(biāo)可以作為對葡萄酒分類的部分指標(biāo),另一方面,可以通過對釀酒葡萄的這些理化指標(biāo)的檢測控制釀葡萄酒原料的質(zhì)量,從而可以從根源上提高葡萄酒的質(zhì)量。
下面給出了相關(guān)分析的理化指標(biāo)的部分相關(guān)系數(shù)表[6],如表2 所示。
我們從表2可以看出,紅葡萄酒與釀酒葡萄的花色苷,DPPH,總酚,單寧,總黃酮,色澤a*均在水平下顯著相關(guān)。其中色澤a*負(fù)相關(guān),而紅葡萄酒與釀酒葡萄的白藜蘆醇、色澤L*及b*不相關(guān)。
表2 釀酒葡萄理化指標(biāo)的相關(guān)性系數(shù)表
通過對釀酒葡萄與紅葡萄酒的理化指標(biāo)的相關(guān)性分析,從釀酒葡萄的理化指標(biāo)中選出了與葡萄酒的理化指標(biāo)有顯著相關(guān)性的理化指標(biāo)作為葡萄酒分類的部分指標(biāo),分別是:紅葡萄酒的釀酒葡萄的理化指標(biāo)有花色苷、單寧、總酚、總黃酮、DPPH、色澤a*。我們結(jié)合釀酒葡萄的這些顯著相關(guān)性的理化指標(biāo)重新對葡萄酒運(yùn)用模糊聚類的方法進(jìn)行分類。
由3.1節(jié)分析結(jié)果可知,各個指標(biāo)對于釀制葡萄酒所起的作用是不一樣的,因此本文基于屬性的約簡,確定了各個理化指標(biāo)的權(quán)重[7],從而突出各個指標(biāo)在分類過程中所占有的地位和所起的作用。實(shí)驗(yàn)驗(yàn)證,權(quán)重的確定影響著方案排序結(jié)果的可靠性和正確性。各理化指標(biāo)的權(quán)重如表3所示。
表3 顯著相關(guān)性理化指標(biāo)的權(quán)重
基于模糊聚類分析的建模思想,將表1中的紅葡萄酒的理化指標(biāo)的數(shù)據(jù)寫成數(shù)據(jù)矩陣。運(yùn)用MATLAB軟件,得到紅葡萄酒分類動態(tài)聚類圖,如圖1所示。
圖1 紅葡萄酒的分類動態(tài)聚類圖
從圖1紅葡萄酒分類的動態(tài)聚類圖中,不難發(fā)現(xiàn)若將樣品分成三類,有
第一類:{1,2},
第二類:{3,9,8,11,20,21,23},
第三類:{15,16,14,17,19,24,27,18,22,26,4,5,13,6,7,12,10}。
基于釀酒葡萄與葡萄酒的理化指標(biāo)的相關(guān)分析,得出了與紅葡萄酒有顯著相關(guān)性的理化指標(biāo)是花色苷、單寧、總酚、總黃酮、DPPH、色澤a*。將這些有顯著相關(guān)性的理化指標(biāo)重新寫成數(shù)據(jù)矩陣,運(yùn)用MATLAB軟件,到紅葡萄酒分類動態(tài)聚類圖,如圖2所示。
圖2紅葡萄酒分類的動態(tài)聚類圖顯示,若將樣品分成三類,有
第一類:{1,8},
圖2 紅葡萄酒的分類動態(tài)聚類圖
第二類:{2,23},
第三類:{24,26,25,27,22,6,17,14,15,10,16,13,19,12,10,16,13,19,12,18,4,6,20,21,3,9,11}。
基于釀酒葡萄理化指標(biāo)權(quán)重的確定,每個理化指標(biāo)都有相應(yīng)的權(quán)重。將具有權(quán)重的釀酒葡萄的理化指標(biāo)重新寫成數(shù)據(jù)矩陣,運(yùn)用MATLAB軟件,得到紅葡萄酒分類動態(tài)聚類圖,如圖3所示。
圖3 紅葡萄酒的分類動態(tài)聚類圖
圖3紅葡萄酒分類的動態(tài)聚類圖顯示,若將樣品分成三類,有
第一類:{1,8},
第二類:{2},
第三類:
{23,24,26,25,27,22,6,17,14,15,10,16,13,19,12,10,16,13,19,12,18,4,6,20,21,3,9,11}。
文獻(xiàn)[2]中采用的是系統(tǒng)聚類法,分類的結(jié)果如下:
第一類:{1},
第二類:{2,8,9},
第三類:{3,4,5,6,7,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27}。
從以上的聚類效果可知,樣品8的類別是存在歧義的,進(jìn)一步分析釀酒葡萄的理化指標(biāo)可知,與樣品2的指標(biāo)數(shù)據(jù)相比,樣品1的各指標(biāo)與樣品8更為接近,因此將樣品1和樣品8歸為一類者似乎更為合理,這就驗(yàn)證了基于模糊聚類模型的有效性和實(shí)用性。
另外,由于模糊聚類分析具有動態(tài)的特征,比較以上實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):將27個樣品分為四類時圖2和圖3顯示的結(jié)果一致。分類結(jié)果如下:
第一類:{1,8},
第二類:{2},
第三類:{23},
第四類:
{24,26,25,27,22,6,17,14,15,10,16,13,19,12,10,16,13,19,12,18,4,6,20,21,3,9,11}。
顯然分成四類結(jié)果與三類的結(jié)果相同之處在與樣品1、樣品2、樣品8始終屬于離散類別(類別包含樣品較少稱為離散類別),不同之處就在于樣品23是否也為離散類別。根據(jù)釀葡萄酒的理化指標(biāo)數(shù)據(jù)顯示,與普通類別(類別包含樣品數(shù)目較多稱為普通類別)有明顯差異,因而我們認(rèn)為此時分類效果更優(yōu)。
本文主要將模糊聚類分析的思想和方法運(yùn)用到了市場上良莠不齊的葡萄酒質(zhì)量鑒定分類中,建立了葡萄酒分類的模糊聚類分析模型。本文采用了相關(guān)性分析進(jìn)行屬性約簡并且用相關(guān)性系數(shù)作為各個理化指標(biāo)的權(quán)重,也可以運(yùn)用粗糙集的相關(guān)理論進(jìn)行屬性約簡,對于權(quán)重的確定也可采用基于粗糙集條件信息熵的權(quán)重確定,這些將在以后的工作中進(jìn)一步討論。
[1]高景山.基于人工魚群的模糊聚類算法研究及其在葡萄酒分類中的應(yīng)用[D].西安:長安大學(xué)碩士論文,2013.
[2]Kanade P.Fuzzy ants as a clustering concept[D].M S diassertation,University of South Florida,Tampa,F(xiàn)L,2004.
[3]謝季堅(jiān),劉承平.模糊數(shù)學(xué)方法及其應(yīng)用(第3版)[M].武漢:華中科技大學(xué)出版,2006.
[4]Nascimento S,Mirkin B,Moura -Pires F.Modeling proportional membership in fuzzy clustering[J].IEEE Transcations on fuzzy Systerms,2003,11(2):173-186.
[5]茆詩松,程依明.概率論與數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2011.
[6]霍明娟.基于聚類分析法的葡萄酒評價[J].太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,13(2):35-4.
[7]韓小孩,張耀輝.基于主成分分析的指標(biāo)權(quán)重確定方法[J].四川兵工學(xué)報(bào),2012,10(33):124 -126.