劉亞清,馬藝翔
(北方工業(yè)大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100144)
白酒是一種以糧谷為主要原料,由淀粉或糖質(zhì)原料制成酒醅或發(fā)酵后經(jīng)蒸餾而得的飲品,在我國(guó)具有悠久的歷史。不同品質(zhì)白酒的市場(chǎng)需求存在較大差異,因此各白酒生產(chǎn)商都力求生產(chǎn)出高品質(zhì)白酒以獲取更高利潤(rùn)。但是由于釀造過程的不確定性較多,同一批次釀造的白酒品質(zhì)也能存在較大差異?;诎拙瞥煞种械南嚓P(guān)因素進(jìn)行分析,量化各因子對(duì)于白酒品質(zhì)的影響作用,從而達(dá)到對(duì)白酒品質(zhì)進(jìn)行初步分類的目的;另一方面,隨著統(tǒng)計(jì)方法的迅速發(fā)展以及計(jì)算機(jī)運(yùn)算能力的提升,基于樣本信息的數(shù)據(jù)挖掘模型,能夠有效降低人為主觀意識(shí)帶來的偏誤。因此,基于數(shù)據(jù)挖掘方法對(duì)白酒品質(zhì)進(jìn)行分類研究,具有很好的研究?jī)r(jià)值和現(xiàn)實(shí)指導(dǎo)意義。
在企業(yè)生產(chǎn)中,對(duì)于白酒分類問題的研究多應(yīng)用感官評(píng)定和氣相色譜法進(jìn)行分類,但感官評(píng)定法容易受到主觀和客觀的條件影響,結(jié)果不夠理想[1]。因此,最近幾年的相關(guān)研究多基于不同的白酒實(shí)驗(yàn)數(shù)據(jù),通過構(gòu)建不同的模型對(duì)白酒分類問題進(jìn)行客觀分析。李建等[2]基于純糧白酒在堿性加熱條件下在波長(zhǎng)363 nm處存在吸光度值差異的原理,指出可以通過純糧白酒標(biāo)準(zhǔn)曲線來確定該酒樣中純糧白酒的比例;楊建磊等[3]基于最小二乘支持向量機(jī)方法,對(duì)近百種白酒的熒光光譜進(jìn)行分析,指出光譜中波峰個(gè)數(shù)、主波峰位置和最佳激發(fā)波長(zhǎng)貢獻(xiàn)率最高,利用其進(jìn)行分類能達(dá)到較為理想的效果;徐瑞煜等[4]則進(jìn)一步利用主成分分析的方法對(duì)三維熒光光譜數(shù)據(jù)進(jìn)行降維,進(jìn)而利用支持向量機(jī)的方法對(duì)幾種濃香型白酒進(jìn)行鑒別;呂海棠等[5]利用紅外光譜法,指出白酒分類可以基于白酒干燥物的指紋特征,不同種類下存在較大差異;王海燕等[6]利用壓縮感知理論對(duì)白酒香型進(jìn)行分類,指出該理論相比最小冗余誤差方法能夠提高識(shí)別率;彭祖成等[7]則選擇白酒中的酯類、醇類等成分含量作為特征變量,構(gòu)建聚類算法進(jìn)行白酒分類,而王旭亮[8]則基于理化指標(biāo)對(duì)中國(guó)名特白酒系統(tǒng)聚類分析;徐增偉等[9]通過構(gòu)造神經(jīng)網(wǎng)絡(luò)模型研究大曲理化指標(biāo)與白酒品質(zhì)之間的聯(lián)系;陳秀麗等[10]結(jié)合主成分分析法,用所建立的電子鼻系統(tǒng)對(duì)白酒進(jìn)行了分類識(shí)別,發(fā)現(xiàn)準(zhǔn)確率較高,田婷等[11]也指出主成分分析在處理電子鼻傳感器響應(yīng)信號(hào)時(shí),對(duì)不同輪次醬香型白酒的區(qū)分效果要優(yōu)于判別因子分析。趙金松等[12]則基于原子力顯微鏡技術(shù),指出真假酒之間在微觀形態(tài)上存在較大差異,可以由此進(jìn)行真假鑒別。
從現(xiàn)有文獻(xiàn)可以看出,對(duì)于白酒分類問題的研究,多集中于借助定量分析模型進(jìn)行劃分,能夠客觀給出白酒分類的指導(dǎo)方法。但是,當(dāng)前的研究大多基于不同的實(shí)驗(yàn)指標(biāo)數(shù)據(jù),對(duì)白酒類型進(jìn)行劃分,但并未對(duì)相關(guān)指標(biāo)對(duì)于白酒類型的具體影響力大小以及作用機(jī)理進(jìn)行綜合分析,且選取變量較多時(shí)容易產(chǎn)生信息冗余及多重共線性問題。因此,本研究通過選取相關(guān)特征變量,進(jìn)而提取公共因子并結(jié)合現(xiàn)有研究對(duì)主因子進(jìn)行分析定義,進(jìn)行利用多分類Logistics模型對(duì)白酒品質(zhì)進(jìn)行分類回歸,計(jì)算模型預(yù)測(cè)準(zhǔn)確率,并確定各主因子對(duì)于白酒品質(zhì)的影響力大小。
作為一種常用的降維方法,因子分析通過研究眾多變量之間的內(nèi)部依賴關(guān)系,提取公共因子,用以表示原有數(shù)據(jù)的基本結(jié)構(gòu),并且利用這些公共因子表示變量的主要信息,由于這些假想變量是不可觀測(cè)的潛在變量,故稱為因子。
在進(jìn)行因子分析時(shí),首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,然后估計(jì)因子載荷矩陣,具體公式:
式中:Z1、Z2、…Zm為原始變量;F1、F2、…Fp為公共因子;a11、a12、…amp為不同因子在原始變量中所在的權(quán)重;U1、U2、…Um為各原始變量中除公共因子外自身所特有的特殊因子;C1、C2、…Cm為特殊因子在原始變量中所占的權(quán)重;表示為矩陣形式:
式中:A為因子載荷矩陣,一般采用主成分法進(jìn)行估計(jì),隨后對(duì)A進(jìn)行正交變換,從而對(duì)因子的意義進(jìn)行解釋。最后,通過因子得分函數(shù),可以計(jì)算原有的每個(gè)解釋變量在每個(gè)公共因子上的得分,從而對(duì)公共因子進(jìn)行衡量。
多元logistics回歸模型首先定義因變量某一水平作為基底,然后構(gòu)建與其他水平的比值,建立“水平數(shù)-1”個(gè)廣義logistics模型。以3水平因變量為例,其取值水平分別為1、2、3,回歸模型構(gòu)建如下:
顯然,同時(shí)應(yīng)當(dāng)有p1+p2+p3=1,根據(jù)樣本觀測(cè)值進(jìn)行參數(shù)估計(jì)后,計(jì)算出
通過對(duì)樣本數(shù)據(jù)進(jìn)行代入,可以分別計(jì)算該樣本點(diǎn)被劃分到這三類中的概率大小,通過數(shù)字比較,可以判斷出該樣本被劃分到的類別,從而利用模型進(jìn)行分類預(yù)測(cè)。
考慮到研究的問題以及數(shù)據(jù)的易得性,本實(shí)驗(yàn)選取加州大學(xué)歐文分校(University of California,UCI)數(shù)據(jù)庫(kù)中的白酒品質(zhì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,該數(shù)據(jù)集的解釋變量為通過物理化學(xué)測(cè)試得到的一些特征指標(biāo),具體指標(biāo)包括非揮發(fā)性酸、揮發(fā)性酸、檸檬酸、殘?zhí)?、氯化物、游離二氧化硫、總二氧化硫、密度、酸性、硫酸鹽、酒精度,分別定義為X1~X11;被解釋變量為白酒的品質(zhì)分類,通過專家打分法得到,從最低的1到最高10共分為10類。考慮到樣本集中各個(gè)品類白酒的樣本量,本實(shí)驗(yàn)選擇包含5、6、7這3個(gè)品級(jí)的白酒數(shù)據(jù),其中等級(jí)5的白酒樣本數(shù)有1 407個(gè),占32.1%;等級(jí)6的樣本數(shù)為2 148個(gè),占49%;等級(jí)7的樣本數(shù)為830,占18.9%。
由于該數(shù)據(jù)集中解釋變量較多,并且其中部分變量明顯具有相關(guān)關(guān)系,故構(gòu)建相關(guān)系數(shù)矩陣,分析各變量之間的相關(guān)關(guān)系,具體結(jié)果如表1所示。
表1 相關(guān)系數(shù)矩陣Table 1 Matrix of correlation coefficients
由表1可知,X1與X3的相關(guān)性達(dá)到0.28,與X9的相關(guān)性達(dá)到-0.42,這是因?yàn)闄幟仕釋儆诜菗]發(fā)性酸中的一種,故兩者關(guān)聯(lián)度較高;X6與X7相關(guān)性達(dá)到0.61,因?yàn)橛坞x二氧化硫是由總二氧化硫電解得到,因此具有較強(qiáng)的相關(guān)性;而X11酒精度與其他變量的相關(guān)性程度更高,這與其計(jì)算公式有關(guān)。
通過相關(guān)系數(shù)矩陣可以看出,各變量相關(guān)程度較高,直接進(jìn)行回歸容易受到多重共線性的影響,影響系數(shù)的準(zhǔn)確程度,因此借助因子分析方法對(duì)原始數(shù)據(jù)集進(jìn)行處理。使用該方法可以在變量中找出隱藏的具有代表性的因子,達(dá)到降維的目的,同時(shí)消除多重共線性問題。利用SPSS軟件進(jìn)行因子分析,最終得到4個(gè)公共因子,其中因子解釋度結(jié)果如表2所示。
表2 因子解釋度結(jié)果Table 2 Results of factor interpretation
由表2可知,模型從11個(gè)特征變量中提取出來4個(gè)主要的公共因子,其中因子1的方差貢獻(xiàn)度為29.447%,前4個(gè)公共因子的解釋度達(dá)到63.649%,說明這4個(gè)公共因子對(duì)于樣本數(shù)據(jù)的提取程度較高,能夠較好的代替相關(guān)特征變量進(jìn)行解釋說明。
根據(jù)成分得分系數(shù)矩陣可以得到每個(gè)公共因子的計(jì)算公式,根據(jù)分析結(jié)果,具體表達(dá)式如表3所示。
表3 成分得分系數(shù)矩陣Table 3 Coefficient matrix of component score
由表3可知,因子1中X4、X6、X7、X8的系數(shù)絕對(duì)值較大,均>0.25,因此該因子的主要成分是殘?zhí)恰⒂坞x二氧化硫、總二氧化硫、密度,有學(xué)者的研究表明[13],在酒類的釀造過程中,酒精度越高,乙醛和葡萄糖越多,被結(jié)合的二氧化硫就越多,則游離的二氧化硫就越少,結(jié)合殘?zhí)且蛩?故因子1可以命名為甜味因子;因子2中X1、X3、X9的系數(shù)絕對(duì)值>0.28,因此該因子中非揮發(fā)性酸、酸性、檸檬酸所占權(quán)重較大,有學(xué)者研究發(fā)現(xiàn),白酒中的非揮發(fā)性酸包含乳酸、檸檬酸等,具有斧正口味,提高白酒質(zhì)量的作用[14],因此因子2可以命名為口味因子;因子3中X2的系數(shù)絕對(duì)值達(dá)0.552,因此該因子中揮發(fā)性酸的權(quán)重較大,由于白酒中揮發(fā)性酸是白酒中主要的呈味物質(zhì),故將因子3命名為香味因子;因子4中X5的系數(shù)達(dá)0.830,氯化物權(quán)重最大,有學(xué)者的研究表明[15],白酒中的氯化物濃度較高,說明酒中的雜質(zhì)較多,容易影響產(chǎn)品質(zhì)量,故命名因子4為雜質(zhì)因子;分別用I1~I(xiàn)4表示這4個(gè)公共因子。
基于樣本數(shù)據(jù)集,首先進(jìn)行因子分析處理,保存處理后的各因子成分?jǐn)?shù)據(jù)。并在3種品類白酒數(shù)據(jù)中各預(yù)留50個(gè)樣本用于模型最后的預(yù)測(cè)檢驗(yàn),對(duì)于剩余的樣本數(shù)據(jù)進(jìn)行l(wèi)ogistics回歸,得到如下分析結(jié)果:
根據(jù)檢驗(yàn)結(jié)果,各系數(shù)均通過1%顯著性檢驗(yàn)水平,參數(shù)估計(jì)準(zhǔn)確度較高,利用該參數(shù)對(duì)預(yù)留的150個(gè)樣本數(shù)據(jù)進(jìn)行計(jì)算處理,得到不同因子水平下,該樣本點(diǎn)被分類到這3種品類白酒的概率大小,具體結(jié)果如表4所示。
表4 白酒分類結(jié)果Table 4 Classification results of B aijiu
由表4可知,預(yù)留樣本中,對(duì)于品類6的白酒預(yù)測(cè)準(zhǔn)確度最高,準(zhǔn)確率達(dá)90%;其次是品類5的白酒,準(zhǔn)確率為48%;而對(duì)于品類7的白酒預(yù)測(cè)準(zhǔn)確度最低,為8%。綜合來看,樣本點(diǎn)總體預(yù)測(cè)準(zhǔn)確率為48.7%,而對(duì)于品類5與品類6白酒的綜合預(yù)測(cè)準(zhǔn)確率為69%。分析其原因,可能是由于樣本數(shù)量的原因,在樣本集中,品類5的數(shù)據(jù)占32.1%,品類6占48.5%,品類7白酒占19.4%。
為了分析各分類變量樣本點(diǎn)數(shù)量的不同是否影響預(yù)測(cè)結(jié)果,同時(shí)考慮進(jìn)行回歸時(shí)樣本量的充足性,在進(jìn)一步的研究中,本實(shí)驗(yàn)選取各自選取了1 408個(gè)品類5和品類6的白酒樣本集,對(duì)數(shù)據(jù)首先進(jìn)行因子分析,進(jìn)而采取二元Logistics回歸分類,其模型回歸結(jié)果準(zhǔn)確率如表5所示。
表5 回歸準(zhǔn)確率結(jié)果Table 5 Results of regression accuracy
由表5可知,在樣本數(shù)量相同時(shí),對(duì)于品類5和品類6的白酒分類預(yù)測(cè)正確率,均維持在65%左右,整體預(yù)測(cè)正確率達(dá)到65.5%,相比較三分類模型,前兩種品類白酒的綜合預(yù)測(cè)準(zhǔn)確率并未發(fā)生明顯變化,但是對(duì)于單項(xiàng)預(yù)測(cè)的準(zhǔn)確度有較大改變。因此,可以看出各分類變量樣本集數(shù)據(jù)數(shù)目的大小,能夠影響單個(gè)類別的預(yù)測(cè)準(zhǔn)確度,但是對(duì)于綜合準(zhǔn)確度影響不大。
由Logistics回歸模型公式可以看出,隨著白酒品類的提高,因子1、因子2和因子4的系數(shù)均在不斷下降,而因子3的系數(shù)相應(yīng)提高,說明因子1、2、4的提高對(duì)于白酒品質(zhì)起負(fù)向作用,而因子3的減少能夠提高白酒品質(zhì)。分別針對(duì)各因子所含內(nèi)容進(jìn)行分析,在因子1的權(quán)重中,除酒精度的權(quán)數(shù)為負(fù)外,殘?zhí)?、總二氧化硫、游離二氧化硫、密度的系數(shù)均為正,說明除酒精度對(duì)白酒品質(zhì)的提升起正向作用外,其余因素起負(fù)向作用。而二氧化硫的含量偏低,說明白酒中的醛類含量較高,這是因?yàn)槎趸蛑饕c乙醛結(jié)合的緣故,被結(jié)合就越多,則游離的二氧化硫就越少,乙醛在白酒貯存老熟過程中含量不斷增加,能夠賦予白酒的清香以及柔和感[16],故其含量的提高能夠促進(jìn)白酒品質(zhì)的提升;因子2中除酸性的權(quán)重為正外,非揮發(fā)性酸和檸檬酸權(quán)重均為負(fù),又由于因子2的降低能夠提高白酒的品質(zhì),說明非揮發(fā)性酸和檸檬酸能夠提升白酒香氣,而這與白酒中的不揮發(fā)酸具有斧正和穩(wěn)定香氣,提高酒體的總酸度等因素有關(guān),能夠豐富白酒香味。因子3中主要是揮發(fā)性酸的影響因素較大,且其權(quán)重為負(fù),說明揮發(fā)性酸含量的提高能夠提升白酒的品質(zhì),白酒中酸類組分是比較重要的呈味物質(zhì),也是形成白酒口味的主要香味成分和生成酯類的前驅(qū)物質(zhì),故品質(zhì)較高的白酒中揮發(fā)性酸的含量也較高。
針對(duì)因子4,其主要影響因素時(shí)氯化物的含量,而氯化物的來源,主要是白酒釀造過程中的用水。同時(shí),水的硬度體現(xiàn)在水中存在鈣、鎂等金屬鹽雜質(zhì)的緣故,水的硬度過高將會(huì)導(dǎo)致成品白酒產(chǎn)生渾濁、失光的重要原因,影響白酒的品質(zhì)。從Logistics回歸結(jié)果也可以看出,隨著白酒分類概率的提升,因子4的參數(shù)逐漸降低,因此氯化物含量的提高將會(huì)降低白酒品質(zhì)。
本實(shí)驗(yàn)通過收集關(guān)于白酒品質(zhì)的相關(guān)數(shù)據(jù),在對(duì)11個(gè)樣本指標(biāo)進(jìn)行相關(guān)性分析時(shí),發(fā)現(xiàn)變量間存在較為嚴(yán)重的多重共線性,故采用因子分析的方法,提取出4個(gè)主要公共因子,進(jìn)而通過構(gòu)造三分類變量的Logistics分類模型,進(jìn)行參數(shù)估計(jì),得到樣本參數(shù)方程,并對(duì)預(yù)留的150個(gè)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),發(fā)現(xiàn)對(duì)品類6白酒的預(yù)測(cè)準(zhǔn)確度最高,而對(duì)品類7白酒的預(yù)測(cè)準(zhǔn)確度較低。在對(duì)影響白酒品類的因素分析時(shí),發(fā)現(xiàn)揮發(fā)性酸類物質(zhì)對(duì)于白酒口感的提高具有促進(jìn)作用,而釀造用水中氯化物成分會(huì)降低白酒口感。因此廠家在釀造白酒時(shí),應(yīng)當(dāng)改進(jìn)生產(chǎn)工藝,使得白酒中相關(guān)促進(jìn)性因素能夠得到提升,同時(shí)注重釀酒用水的來源,避免水中含有過多雜質(zhì),影響白酒品質(zhì)。
參考文獻(xiàn):
[1]陳 飛,張 良,霍丹群,等.濃香型白酒基酒的現(xiàn)狀和發(fā)展趨勢(shì)[J].中國(guó)釀造,2017,36(10):5-8.
[2]李 建,姜 雪.濃香型純糧白酒鑒別方法的研究[J].中國(guó)釀造,2015,34(1):118-121.
[3]楊建磊,朱 拓,徐 巖,等.基于最小二乘支持向量機(jī)算法的三維熒光光譜技術(shù)在中國(guó)白酒分類中的應(yīng)用[J].光譜學(xué)與光譜分析,2010,30(1):243-246.
[4]徐瑞煜,朱焯煒,胡揚(yáng)俊,等.三維熒光光譜結(jié)合PAC-SVM對(duì)幾種濃香型白酒的鑒別[J].光譜學(xué)與光譜分析,2016,36(4):1021-1026.
[5]呂海棠,任彥蓉,李春花.紅外光譜技術(shù)對(duì)濃香型和清香型白酒的品質(zhì)分析[J].中國(guó)釀造,2010,29(10):175-177.
[6]王海燕,王 虎,王國(guó)祥,等.基于壓縮感知的白酒香型分類[J].計(jì)算機(jī)工程,2015,41(3):172-176.
[7]彭祖成,潘春躍.聚類分析在白酒質(zhì)量和風(fēng)味辨識(shí)的應(yīng)用[J].食品工業(yè),2015,36(6):250-252.
[8]王旭亮.基于理化指標(biāo)對(duì)中國(guó)名特白酒系統(tǒng)聚類分析[J].釀酒科技,2013(7):5-8.
[9]徐增偉,曾黃麟,陶雪容.基于粗神經(jīng)網(wǎng)絡(luò)的大曲理化指標(biāo)對(duì)白酒質(zhì)量和產(chǎn)量影響分析[J].中國(guó)釀造,2011,30(11):101-103.
[10]陳秀麗,高海榮,黃振旭,等.電子鼻分析方法在白酒分類識(shí)別中的應(yīng)用[J].信陽(yáng)師范學(xué)院學(xué)報(bào),2014,26(7):386-393.
[11]田 婷,邱樹毅,文聆吉,等.電子鼻技術(shù)對(duì)不同輪次醬香型白酒的區(qū)分與識(shí)別[J].中國(guó)釀造,2017,36(10):71-75.
[12]趙金松,張敬雨,許 愿,等.原子力顯微鏡在中國(guó)白酒品質(zhì)鑒別中的應(yīng)用[J].釀酒科技,2014(10):55-56.
[13]朱夢(mèng)旭.白酒中易揮發(fā)的有毒有害小分子醛及其結(jié)合態(tài)化合物研究[D].無(wú)錫:江南大學(xué),2016.
[14]劉明明.兼香型白酒工藝研究[D].濟(jì)南:齊魯工業(yè)大學(xué),2013.
[15]楊德武,劉兵兵.去除低度白酒雜質(zhì)的過濾實(shí)驗(yàn)研究[J].過濾與分離,2013,23(1):30-32.