許珊珊+譚兵+李屹+何婷??
摘要:現(xiàn)行的葡萄酒質(zhì)量的評(píng)價(jià)體系是建立在人的感官上進(jìn)行的,如何通過一些量化的理化指標(biāo)來評(píng)價(jià)葡萄酒質(zhì)量是一個(gè)值得研究的方向。為此,利用多元統(tǒng)計(jì)分析的相關(guān)知識(shí),通過研究釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量之間的關(guān)系,客觀的評(píng)價(jià)了葡萄酒的質(zhì)量,成功的對(duì)釀酒葡萄進(jìn)行了分級(jí)。
關(guān)鍵詞:t檢驗(yàn)法;K均值聚類;典型相關(guān)分析;多元線性回歸
中圖分類號(hào):F27文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.16723198.2018.09.028
1問題背景
葡萄酒質(zhì)量的好壞主要依賴于評(píng)酒員的感觀評(píng)價(jià),由于人為主觀因素的影響,對(duì)于酒質(zhì)量的評(píng)價(jià)總會(huì)存在隨機(jī)差異,找到一種簡(jiǎn)單有效的客觀方法來評(píng)酒,如何采用一個(gè)量化的評(píng)價(jià)標(biāo)準(zhǔn)就顯得尤為重要了。本文根據(jù)全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽2012年A題的問題和數(shù)據(jù),通過研究釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量的關(guān)系,以及葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)之間的關(guān)系,對(duì)葡萄酒的質(zhì)量進(jìn)行了客觀評(píng)價(jià)和分級(jí)。
2模型假設(shè)
(1)假設(shè)附件數(shù)據(jù)來源真實(shí)有效;
(2)假設(shè)兩組品酒員在相同環(huán)境下品酒,采用評(píng)分標(biāo)準(zhǔn)一樣;
(3)假設(shè)釀酒葡萄和葡萄酒編號(hào)一一對(duì)應(yīng)。
3符號(hào)說明
4模型建立與求解
4.1問題一的模型建立與求解
4.1.1數(shù)據(jù)預(yù)處理
在數(shù)據(jù)分析之前通常要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,附件1包含兩組品酒員分別對(duì)紅葡萄酒和白葡萄酒的評(píng)分?jǐn)?shù)據(jù),每組品酒員有10個(gè),紅葡萄酒樣品有27個(gè),白葡萄酒樣品有28個(gè)。觀察數(shù)據(jù)我們可以發(fā)現(xiàn),部分?jǐn)?shù)據(jù)存在缺失和異常現(xiàn)象,我們對(duì)其正?;幚怼?duì)于數(shù)據(jù)缺失情況,例如第一組紅葡萄酒樣品20號(hào)中品酒員4號(hào)對(duì)色調(diào)評(píng)分?jǐn)?shù)據(jù)缺失,我們采用剩余數(shù)據(jù)的均值替換法來修補(bǔ)缺失數(shù)據(jù)。對(duì)于數(shù)據(jù)異常情況,例如第一組白葡萄酒樣品3號(hào)中品酒員7號(hào)對(duì)持久性數(shù)據(jù)評(píng)分超過其規(guī)定最大值,我們也是采用“先舍棄后均值替換”的方法。
4.1.2評(píng)分?jǐn)?shù)據(jù)正態(tài)性的檢驗(yàn)
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,我們對(duì)附件1中品酒員對(duì)酒樣品的評(píng)價(jià)總分進(jìn)行了計(jì)算,然后得出了紅葡萄酒和白葡萄酒的得分均值,其圖像如圖1、圖2所示。
觀察圖1、圖2可以發(fā)現(xiàn),兩組品酒員對(duì)紅葡萄酒和白葡萄酒的得分均值雖然在數(shù)值上有出入,但其變化趨勢(shì)大致一樣,為了評(píng)價(jià)兩組品酒員的評(píng)價(jià)結(jié)果有無顯著性差異,我們擬采用雙正態(tài)總體t檢驗(yàn)法,為此我們需要對(duì)兩組品酒員的評(píng)分?jǐn)?shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn)。
根據(jù)其得分均值數(shù)據(jù),我們采用MATLAB正態(tài)檢驗(yàn)性的相關(guān)函數(shù),繪制了兩組品酒員對(duì)紅葡萄酒得分均值的頻數(shù)分布和正態(tài)概率如圖3所示。
觀察圖3我們可以發(fā)現(xiàn),兩組品酒員對(duì)紅葡萄酒得分均值頻數(shù)大致符合正態(tài)分布,而正態(tài)概率圖正說明了得分均值的概率落在直線周圍,所以我們可認(rèn)為兩組品酒員對(duì)紅葡萄的得分均值服從正態(tài)分布,我們?cè)倮煤瘮?shù)lillietest來檢驗(yàn)是否服從正態(tài)分布,結(jié)果顯示H=0,則可以認(rèn)為是服從正態(tài)分布的。針對(duì)兩組品酒員對(duì)白葡萄酒的得分均值亦采用上述方法,結(jié)果表明其服從正態(tài)分布。
4.1.3雙正態(tài)總體t檢驗(yàn)
t檢驗(yàn)是一種比較成熟的檢驗(yàn)方法,針對(duì)本問題,采用雙總體獨(dú)立樣本的t檢驗(yàn)法,其檢驗(yàn)統(tǒng)計(jì)量為:
(1)
其中S21,S22表示兩樣本方差,n1,n2表示兩樣本量。
當(dāng)樣本量n1=n2=n時(shí),t檢驗(yàn)統(tǒng)計(jì)量化簡(jiǎn)為:
(2)
首先提出無效假設(shè)與備擇假設(shè):H0:兩組品酒員評(píng)價(jià)結(jié)果無顯著性差異,H1:兩組品酒員評(píng)價(jià)結(jié)果有顯著性差異。
計(jì)算兩組品酒員對(duì)紅葡萄酒和白葡萄酒評(píng)分均值的t統(tǒng)計(jì)量,繪制其顯著性檢驗(yàn)結(jié)果如圖4所示。
觀察圖4再結(jié)合t檢驗(yàn)推斷依據(jù),在顯著性水平為0.05的情況下,t檢驗(yàn)值小于t(df)0.05,所以接受原假設(shè),即兩組品酒員評(píng)價(jià)結(jié)果無顯著性差異。接著計(jì)算得到了兩組品酒員對(duì)紅葡萄酒和白葡萄酒的平均顯著性t檢驗(yàn)值分別為1.7539和1.1356,這說明品酒員對(duì)白葡萄酒評(píng)價(jià)結(jié)果的差異小于對(duì)紅葡萄酒的差異。
4.1.4哪組結(jié)果更可信
為了評(píng)價(jià)哪一組結(jié)果更可信,我們可以根據(jù)品酒員對(duì)酒樣品評(píng)價(jià)得分的方差來體現(xiàn),方差越小,說明品酒員之間評(píng)價(jià)結(jié)果越接近,評(píng)價(jià)結(jié)果越可信。
觀察圖像可以發(fā)現(xiàn),對(duì)于紅葡萄酒和白葡萄酒,第一組品酒員評(píng)分的方差均大于第二組品酒員評(píng)分的方差,綜上,我們可認(rèn)為第二組品酒員的評(píng)分?jǐn)?shù)據(jù)更可信一點(diǎn)。
4.2問題二的模型建立與求解
根據(jù)釀酒葡萄理化指標(biāo)和葡萄酒質(zhì)量對(duì)釀酒葡萄進(jìn)行分級(jí),也就是對(duì)釀酒 進(jìn)行聚類。查閱文獻(xiàn)可知,K均值聚類法具有廣泛的應(yīng)用,是典型的基于原型的目標(biāo)函數(shù)聚類方法的代表,它是數(shù)據(jù)點(diǎn)到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù),利用函數(shù)求極值的方法得到迭代運(yùn)算的調(diào)整規(guī)則。限于篇幅原因,其實(shí)現(xiàn)原理和方法見參考文獻(xiàn)。
4.2.1根據(jù)葡萄酒質(zhì)量聚類
由問題一分析可知,兩組品酒員評(píng)價(jià)結(jié)果無顯著性差異,因此本文采用兩組品酒員評(píng)分均值來進(jìn)行分析。利用K均值聚類算法對(duì)紅葡萄酒質(zhì)量進(jìn)行聚類得到圖7。
圖7紅葡萄酒K均值聚類結(jié)果圖
根據(jù)分類的結(jié)果以及各葡萄樣品酒綜合得分最終將釀酒葡萄分為A(優(yōu)質(zhì))、B(良好)、C(中等)、D(差)四個(gè)等級(jí),客觀地反映了釀酒葡萄的理化指標(biāo)與葡萄酒質(zhì)量之間的聯(lián)系。對(duì)于紅葡萄酒的分類結(jié)果如表2所示。
4.2.2根據(jù)釀酒葡萄酒理化指標(biāo)聚類
觀察表3中釀酒葡萄的理化指標(biāo),分為一級(jí)指標(biāo)和二級(jí)指標(biāo),為了指標(biāo)級(jí)別的統(tǒng)一性,我們選擇一級(jí)指標(biāo)進(jìn)行研究,但一級(jí)指標(biāo)仍然有9個(gè),為此,我們采用主成分分析法(Principal Component Analysis,PCA)對(duì)指標(biāo)進(jìn)行降維。主成分分析,是考察多個(gè)變量間相關(guān)性一種多元統(tǒng)計(jì)方法,研究如何通過少數(shù)幾個(gè)主成分來揭示多個(gè)變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出少數(shù)幾個(gè)主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān).通常數(shù)學(xué)上的處理就是將原來P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。endprint
利用主成分分析法先對(duì)釀酒葡萄指標(biāo)進(jìn)行降維,然后在利用K均值聚類法對(duì)降維結(jié)果進(jìn)行聚類。以紅葡萄為例,根據(jù)PCA得分利用K均值聚類的結(jié)果如圖9所示。
與根據(jù)葡萄酒質(zhì)量的分級(jí)結(jié)果比較,發(fā)現(xiàn)兩者一致性較差,這在情理之中。根據(jù)不同的評(píng)判標(biāo)準(zhǔn)就會(huì)得到不同的結(jié)果,根據(jù)葡萄酒分級(jí)的目的,可能認(rèn)為根據(jù)葡萄酒評(píng)分對(duì)釀酒葡萄進(jìn)行分級(jí)更合理一點(diǎn)。對(duì)于白葡萄酒情況類似,限于篇幅不再給出白葡萄酒的分級(jí)結(jié)果。
4.3兩組變量之間的關(guān)系
4.3.1典型相關(guān)分析
欲分析釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系,可以采用典型相關(guān)分析法,典型相關(guān)分析的目的識(shí)別并量化兩組變量之間的關(guān)系,將兩組變量之間的關(guān)系轉(zhuǎn)化為一組變量的線性組合與另一組變量的線性組合之間的相關(guān)關(guān)系分析,其基本思想是主成分分析。
根據(jù)附件2發(fā)現(xiàn),釀酒葡萄的一級(jí)理化指標(biāo)有30個(gè),葡萄酒的一級(jí)理化指標(biāo)有9個(gè),我們采用MATLAB中的canoncorr函數(shù)分析這兩組變量之間的關(guān)系,分析結(jié)果表明,九組典型相關(guān)變量的相關(guān)系數(shù)均為1,繪制了九組典型相關(guān)變量得分如圖10所示。
由于典型相關(guān)變量太多,且其表達(dá)式較復(fù)雜,故此種方法對(duì)分析釀酒葡萄與葡萄酒理化指標(biāo)之間的聯(lián)系用處不大。
4.3.2多元線性回歸模型的建立
多元回歸分析是研究多個(gè)變量之間關(guān)系的回歸分析方法,確定變量之間數(shù)量的可能形式,并用數(shù)學(xué)模型表示如下:
(3)
其中β0為截距項(xiàng),βi為偏回歸系數(shù),ε為殘差項(xiàng)。
假定:
(4)
建立模型后,需要對(duì)模型進(jìn)行擬合度檢驗(yàn),就是用R2檢驗(yàn)樣本回歸方程的變量的線性關(guān)系是否顯著,此外可以用F檢驗(yàn)對(duì)整個(gè)回歸進(jìn)行顯著性檢驗(yàn),即Y與所考慮的k個(gè)自變量是否有顯著性線性關(guān)系,F(xiàn)檢驗(yàn)統(tǒng)計(jì)量為:
(5)
其中ESS為回歸平方和,RSS為殘差平方和,n為樣本容量,k為自變量個(gè)數(shù)。
給定顯著性水平α=0.05,可得到臨界值Fα(k,n-k-1),由樣本求出統(tǒng)計(jì)量F的數(shù)值,通過與F的臨界值進(jìn)行比較,若FF(0.05)(k,n-k-1),則拒絕原假設(shè),即參數(shù)βi不全為0,認(rèn)為回歸方程在0.05水平上顯著。
為了便于分析,我們將附件2中的一級(jí)指標(biāo)進(jìn)行編號(hào),釀酒葡萄的一級(jí)指標(biāo)從氨基酸總量、蛋白質(zhì)、VC 含量直到b*(+黃;-藍(lán))分別命名為x1,x2,x3,…xn,葡萄酒的一級(jí)指標(biāo)從花色苷、單寧、總酚直到b*分別命名為y1,y2,y3,…,yn。建立葡萄酒理化指標(biāo)y與釀酒葡萄理化指標(biāo)x之間的關(guān)系,由于釀酒葡萄一級(jí)指標(biāo)多達(dá)30個(gè),為此,需要對(duì)釀酒葡萄一級(jí)指標(biāo)進(jìn)行降維,選擇主要的指標(biāo)進(jìn)行分析。以花色苷為例,針對(duì)葡萄酒的其他理化指標(biāo)的分析與之類似。建立釀酒葡萄與花色苷之間的相關(guān)系數(shù)矩陣,選擇相關(guān)系數(shù)絕對(duì)值大于均值的變量。其相關(guān)系數(shù)矩陣如表5所示。其中X表示將該變量舍去。
根據(jù)R2的大小,可判斷出多元線性回歸方程的契合度,結(jié)果顯示,在置信度95%下,R2=0.98,可知方程的吻合性非常好。且F=19.4>F(0.95,19,7)=3.46,與顯著性概率0.05相關(guān)的p=0.00027<005,這說明回歸方程中的每個(gè)自變量的選取都是有意義的。最后得到葡萄酒花色苷與釀酒葡萄一級(jí)理化指標(biāo)的多元線性回歸方程為:
y=β0+β1x2+β2x4+β3x6+…+β19x28+β20x29(6)
其中x2、x4、x4、x28、x29、y分別代表蛋白質(zhì)、釀酒葡萄花色苷、蘋果酸、L*、a*、葡萄酒花色苷。
參考文獻(xiàn)
[1]全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽官網(wǎng),2012年高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽賽題[EB/OL].http://www.mcm.edu.cn/problem/2012/2012.html.
[2]百度百科,t檢驗(yàn)定義[EB/OL].https://baike.baidu.com/item/t%E6%A3%80%E9%AA%8C/9910799?fr=aladdin.
[3]百度百科,K均值聚類[EB/OL].https://baike.baidu.com/item/K-means/4934806?fr=aladdin.
[4]朱建平.應(yīng)用多元統(tǒng)計(jì)分析[M].第3版.北京:科學(xué)出版社,2016.
[5]百度百科,主成分分析法[EB/OL].https://baike.baidu.com/item/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/829840?fr=aladdin.endprint