張貴宇,庹先國(guó) ,曾祥林,彭英杰,王 昆,陳 霏,付朝帥
(1.人工智能四川省重點(diǎn)實(shí)驗(yàn)室,四川宜賓 644000;2.四川輕化工大學(xué)自動(dòng)化與信息工程學(xué)院,四川宜賓 644000;3.西南科技大學(xué)信息工程學(xué)院,四川綿陽(yáng) 621010)
酒的主要質(zhì)量指標(biāo)可分為感官指標(biāo)和理化指標(biāo)兩類。感官評(píng)價(jià)是利用人的感覺(jué)器官(眼睛、鼻子和舌頭)觀色、聞香、品味來(lái)鑒別酒質(zhì)量的一門檢測(cè)技術(shù)[1]。通過(guò)酒的品評(píng)來(lái)指導(dǎo)生產(chǎn)工藝,例如對(duì)新酒的品評(píng)能夠發(fā)現(xiàn)釀酒工藝是否正常、發(fā)酵是否正常、操作是否精細(xì);勾調(diào)品評(píng)是品評(píng)工作的核心,能夠使酒達(dá)到更好的口感效果,更好的品質(zhì),更加穩(wěn)定、更顯和諧平衡,風(fēng)格多樣化[2-3]。酒中具有多種呈味物質(zhì),包括使人感到甜味的糖和醇類等化合物,引起酸味的有機(jī)酸等,這些呈味物質(zhì)不同比例和濃度的組合,直接影響酒的風(fēng)格和質(zhì)量。呈味物質(zhì)氣味的相互作用包括累加作用、協(xié)同作用、融合作用和掩蓋作用,酒的感官評(píng)價(jià)的優(yōu)劣正是取決于呈香物質(zhì)構(gòu)成的氣味之間的平衡程度,即呈香物質(zhì)按一定的比例、濃度和相互作用方式來(lái)達(dá)到令人感覺(jué)舒適和愉快的程度[4-7]。雖然人的嗅覺(jué)和味覺(jué)靈敏度較高,但感官評(píng)價(jià)易受地域、民族、習(xí)慣、個(gè)人愛(ài)好、心理和健康情況等因素的影響,只能實(shí)現(xiàn)定性分析,難以用直觀的數(shù)字表達(dá)。儀器的檢測(cè)分析可對(duì)酒的理化指標(biāo)進(jìn)行定量分析,但儀器檢測(cè)分析易受香味物質(zhì)的濃度、溫度、溶劑、易位和復(fù)合香等指標(biāo)的影響[8-9],只能準(zhǔn)確測(cè)定含量,對(duì)呈香呈味特征及其變化規(guī)律難以表達(dá)。因此,針對(duì)酒體中眾多的呈香呈味物質(zhì),結(jié)合感官評(píng)價(jià),研究一種基于數(shù)據(jù)驅(qū)動(dòng)的分析評(píng)價(jià)方法,對(duì)提高酒質(zhì)量評(píng)價(jià)的準(zhǔn)確性和穩(wěn)定性具有重要意義。
隨著計(jì)算資源和傳感技術(shù)的不斷升級(jí),數(shù)據(jù)量呈現(xiàn)大規(guī)模的增長(zhǎng),數(shù)據(jù)維度也越來(lái)越高,快速分析復(fù)雜高維多元數(shù)據(jù)已成為目前研究的熱點(diǎn)方向。基于統(tǒng)計(jì)和基本分析技術(shù)的可視化系統(tǒng)分析能力已經(jīng)不能滿足高維多元數(shù)據(jù)分析。數(shù)據(jù)多元化、非結(jié)構(gòu)化、異構(gòu)性等復(fù)雜程度的增加,單一的可視化方法也無(wú)法滿足數(shù)據(jù)分析的需求。因此,高性能的高維數(shù)據(jù)分析方法和工具得到快速發(fā)展,采用連通散點(diǎn)圖、動(dòng)態(tài)直方圖、歸一化和離群點(diǎn)檢測(cè)/去除等視點(diǎn)可視方法來(lái)實(shí)現(xiàn)對(duì)大型、高維多元數(shù)據(jù)集的圖形可視化,廣泛應(yīng)用于天文學(xué)、量子化學(xué)、流體動(dòng)力學(xué)、機(jī)器學(xué)習(xí)、生物信息學(xué)、金融以及信息技術(shù)服務(wù)器日志挖掘等領(lǐng)域[10-16]。在食品研究領(lǐng)域,Hao等[17]將可視化分析技術(shù)與區(qū)塊鏈相結(jié)合,利用熱圖顯示不合格產(chǎn)品的區(qū)域,遷移圖技術(shù)分析風(fēng)險(xiǎn)區(qū)域之間的關(guān)系,再通過(guò)力指向圖來(lái)追蹤特定產(chǎn)品軌跡。Cruz等[18-19]將可視分析方法應(yīng)用于生物數(shù)據(jù)分析,使用協(xié)調(diào)的多個(gè)視圖來(lái)表示高維多變量數(shù)據(jù),特別是時(shí)間序列的基因表達(dá)、蛋白質(zhì)相互作用網(wǎng)絡(luò)和生物通路。在酒的感官評(píng)價(jià)和理化數(shù)據(jù)分析中,Cortez等[20]開(kāi)展了利用酒的理化指標(biāo)數(shù)據(jù)建立人的偏好分類模型,分別采用了支持向量機(jī)、多元回歸和神經(jīng)網(wǎng)絡(luò)方法,以數(shù)據(jù)驅(qū)動(dòng)的測(cè)試方法可以提高品酒師的速度和質(zhì)量,降低僅憑品酒師的經(jīng)驗(yàn)和知識(shí)造成的人為因素影響。Bai等[21-23]根據(jù)理化性質(zhì)對(duì)紅酒進(jìn)行分類,首先,采用因子分析法對(duì)多元理化指標(biāo)變量進(jìn)行降維,再對(duì)觀測(cè)值進(jìn)行K-均值聚類分析,實(shí)現(xiàn)紅酒的分類方法。除理化指標(biāo),酒體顏色是感官品嘗過(guò)程中一個(gè)重要的質(zhì)量參數(shù),利用折線圖和誤差線分析比色法與感官評(píng)價(jià)的相關(guān)關(guān)系。采用PCA(Principal Components Analysis,主成分分析)對(duì)顏色參數(shù)進(jìn)行多元分析,獲得主成分載荷圖對(duì)酒的不同風(fēng)格和等級(jí)進(jìn)行劃分[24-25]。
目前,基于大數(shù)據(jù)和可視分析技術(shù)在釀酒技術(shù)方面的研究與應(yīng)用相對(duì)較少。本文將感官評(píng)價(jià)和理化指標(biāo)相結(jié)合,針對(duì)酒的高維多元理化指標(biāo)數(shù)據(jù)提出一種可視化分析方法,挖掘理化指標(biāo)之間的復(fù)雜相關(guān)性,以及理化指標(biāo)與感官評(píng)價(jià)數(shù)據(jù)的相關(guān)性。構(gòu)建可以用于酒體質(zhì)量等級(jí)分類的評(píng)價(jià)模型,實(shí)現(xiàn)以離散理化指標(biāo)數(shù)據(jù)的綜合性分析對(duì)酒進(jìn)行質(zhì)量分級(jí),達(dá)到感官評(píng)價(jià)標(biāo)準(zhǔn),提高酒質(zhì)量評(píng)價(jià)的準(zhǔn)確性和穩(wěn)定性。
采用的葡萄酒樣本數(shù)據(jù)集引自Paulo Cortez公開(kāi)數(shù)據(jù)庫(kù),數(shù)據(jù)集包括4898個(gè)樣本的理化指標(biāo)數(shù)據(jù)和感官評(píng)價(jià)數(shù)據(jù),11項(xiàng)理化指標(biāo)包括非揮發(fā)性酸(fixed acidity)、揮發(fā)性酸(volatile acidity)、檸檬酸(citric acid)、殘 糖(residual sugar)、氯 化 物(chlorides)、游離二氧化硫(free sulfur dioxide)、總二氧化硫(total sulfur dioxide)、密度(density)、pH、硫酸酯(sulphates)和酒精(alcohol)。感官評(píng)價(jià)中由品酒師對(duì)樣品進(jìn)行3~9級(jí)的等級(jí)評(píng)分,每個(gè)樣品由至少3名品酒師進(jìn)行盲評(píng),并取中位值作為最終評(píng)定等級(jí)。各等級(jí)的樣本數(shù)量分布如表1所示。
表1 各等級(jí)的樣本數(shù)量分布Table 1 Sample size distribution for each grade
1.2.1 理化指標(biāo)相關(guān)性分析 采用和弦圖闡釋理化指標(biāo)與感官評(píng)定等級(jí)的相關(guān)性。和弦圖是一種顯示數(shù)據(jù)間相互關(guān)系的可視化方法,節(jié)點(diǎn)數(shù)據(jù)沿圓周徑向排列,節(jié)點(diǎn)之間使用帶權(quán)重(寬度)的弧線鏈接,即弧線寬度越大,相關(guān)性越強(qiáng),由和弦圖直觀獲得理化指標(biāo)對(duì)感官等級(jí)的影響規(guī)律。再采用散點(diǎn)矩陣分析方法進(jìn)一步獲得理化指標(biāo)數(shù)據(jù)之間的相關(guān)性,對(duì)相關(guān)性進(jìn)行量化。
1.2.2 感官等級(jí)評(píng)定中理化指標(biāo)的重要性分析 基于大數(shù)據(jù)視角對(duì)酒體的高維多元理化指標(biāo)數(shù)據(jù)集進(jìn)行優(yōu)化,采用主成分分析算法抽象提取數(shù)據(jù)集的主要特征,并評(píng)估各理化指標(biāo)參數(shù)的重要性,實(shí)現(xiàn)高維多元理化指標(biāo)數(shù)據(jù)集的降維。
1.2.3 酒體質(zhì)量分類分析方法 采用隨機(jī)森林算法構(gòu)建酒的質(zhì)量評(píng)價(jià)模型。隨機(jī)森林是一種較新的機(jī)器學(xué)習(xí)模型,由多個(gè)決策樹(shù)組成。單個(gè)決策樹(shù)的分類能力較小,但擁有大量決策樹(shù)的隨機(jī)森林可以通過(guò)每一棵樹(shù)的分類結(jié)果,選取其中最可能的分類,可有效提高分類效果。隨機(jī)森林質(zhì)量分析模型訓(xùn)練過(guò)程如圖1所示。
圖1 隨機(jī)森林質(zhì)量分析模型訓(xùn)練流程圖Fig.1 Training flowchart of random forest quality analysis model
首先,將樣本數(shù)據(jù)輸入到初始默認(rèn)設(shè)置的每棵決策樹(shù);然后,對(duì)數(shù)據(jù)特征進(jìn)行分類,并對(duì)每個(gè)特征進(jìn)行評(píng)分;最終集成所有的分類投票結(jié)果,確定隨機(jī)森林的最優(yōu)決策樹(shù)數(shù)量和決策樹(shù)節(jié)點(diǎn)分支變量數(shù)量,將投票次數(shù)最多的指定為最終的輸出。
數(shù)據(jù)集中隨機(jī)抽取866個(gè)4~8 級(jí)的樣本數(shù)據(jù),等級(jí)分別命名為Q5、Q4、Q3、Q2和Q1,對(duì)各理化指標(biāo)數(shù)據(jù)按照四分位點(diǎn)由小到大劃分為4個(gè)區(qū)間,理化指標(biāo)與感官評(píng)定等級(jí)的相關(guān)性規(guī)律通過(guò)和弦圖闡釋,如圖2所示。
圖2 等級(jí)與理化指標(biāo)的和弦圖Fig.2 Chord diagram of grade and physical and chemical indicators
如圖2所示,以理化指標(biāo)酒精度alcohol為例,由 小 到 大 分 為alcohol1、alcohol2、alcohol3和alcohol4共4個(gè)區(qū)間,隨Q1~Q5質(zhì)量等級(jí)的變化,酒精度分布逐漸向alcohol1區(qū)間(最低酒精度區(qū)間)偏移,如圖中B、E的局部放大圖所示,可直觀觀察到隨質(zhì)量等級(jí)的降低,酒精度分布逐漸向低酒精度區(qū)間偏移。
進(jìn)一步分析理化指標(biāo)間的耦合關(guān)系,采用散點(diǎn)矩陣分析方法對(duì)理化指標(biāo)的相關(guān)性進(jìn)行量化,如圖3所示。
圖3 理化指標(biāo)的散點(diǎn)矩陣圖Fig.3 Scattered matrix diagram of physical and chemical indicators
圖3(A)下三角的散點(diǎn)矩陣顯示理化指標(biāo)之間的相關(guān)性,上三角通過(guò)相關(guān)系數(shù)(絕對(duì)值)文字大小顯示相關(guān)性的強(qiáng)弱。以圖3(A)中框選為例進(jìn)行分析,如橢圓框內(nèi)的點(diǎn)分布于一條帶狀區(qū)域內(nèi),說(shuō)明密度與殘?zhí)蔷哂休^強(qiáng)的線性或非線性相關(guān)性;矩形框內(nèi)的點(diǎn)呈現(xiàn)無(wú)規(guī)律分布,表明檸檬酸與總二氧化硫的相關(guān)性較?。涣呅慰騼?nèi)的點(diǎn)沿軸分布,表明酒精度與硫酸酯為相對(duì)獨(dú)立的屬性。圖3(A)展示理化指標(biāo)之間的相關(guān)性強(qiáng)弱,通過(guò)圖3(B)橢圓矩陣相關(guān)性的正負(fù)關(guān)系,藍(lán)色表示正相關(guān),紅色表示負(fù)相關(guān),橢圓的寬度越窄相關(guān)性越強(qiáng)。
2.2.1 主成分降維算法 由圖3可知,理化指標(biāo)之間具有復(fù)雜的耦合關(guān)系,首先對(duì)高維參數(shù)進(jìn)行優(yōu)化。PCA通過(guò)線性變換將高維數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系,獲得若干個(gè)新的、獨(dú)立不相關(guān)的綜合參數(shù)——主成分,用少數(shù)幾個(gè)綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)數(shù)據(jù),并且盡量多的反映原來(lái)指標(biāo)所表示的特征。PCA算法中采用方差來(lái)度量提取數(shù)據(jù)特征的多少,要求在約束條件下方差達(dá)到最大值,以保證涵蓋的信息量最多。
酒的理化指標(biāo)數(shù)據(jù)具有不同的量綱,經(jīng)標(biāo)準(zhǔn)化預(yù)處理后定義為X=(x1, x2, ···, xp),將X變換為一組獨(dú)立不相關(guān)的綜合參數(shù)(成分)y1, y2, ···, yp,使得yi為X的線性組合:
利用RStudio數(shù)據(jù)可視化與數(shù)據(jù)挖掘?qū)S密浖M(jìn)行PCA降維分析,通過(guò)“碎石圖”可以獲得各成分的貢獻(xiàn)率,即表達(dá)原數(shù)據(jù)總體特征的比例,如圖4所示。
圖4 成分貢獻(xiàn)率Fig.4 Component contribution rate
PCA分析共獲得10個(gè)成分,選取前6個(gè)作為主成分,能夠表達(dá)原數(shù)據(jù)集85.17%的特征信息,6個(gè)主成分的系數(shù)矩陣如表2所示。
2.2.2 理化指標(biāo)的重要性分析 根據(jù)主成分的特征根和得分系數(shù)矩陣,通過(guò)式(2)和(3)計(jì)算的各理化指標(biāo)參數(shù)的權(quán)重。
α為主成分得分系數(shù)矩陣,σ為主成分對(duì)應(yīng)的方差,β為各指標(biāo)數(shù)據(jù)的綜合等分系數(shù),ω為理化指標(biāo)參數(shù)的權(quán)重,即重要性系數(shù)。i是理化指標(biāo)數(shù)量,j是主成分?jǐn)?shù)量。
圖5中,“底紋”柱狀圖代表權(quán)重較大的6個(gè)理化指標(biāo),即對(duì)酒體質(zhì)量的影響較大,因此,作為數(shù)據(jù)優(yōu)化后的關(guān)鍵指標(biāo)參數(shù)。
在數(shù)據(jù)特征提取的基礎(chǔ)上降低了數(shù)據(jù)集維度。為提高模型的訓(xùn)練效果,篩選樣本較多的Q2、Q3和Q4三個(gè)等級(jí)的數(shù)據(jù)。保留樣本數(shù)據(jù)的6個(gè)關(guān)鍵指標(biāo)參數(shù),通過(guò)標(biāo)準(zhǔn)化后的二維分布情況可見(jiàn)三個(gè)等級(jí)樣本數(shù)據(jù)的耦合情況具有較強(qiáng)的交叉,如圖6所示。
利用R語(yǔ)言的randomForest軟件包建立隨機(jī)森林模型。在隨機(jī)數(shù)模型訓(xùn)練過(guò)程中,決策樹(shù)節(jié)點(diǎn)分支的變量數(shù)量和決策樹(shù)的數(shù)量是影響模型效果的主要因素。采用變量數(shù)量遞增訓(xùn)練法,選取最優(yōu)模型。選取4535個(gè)樣本集,通過(guò)比較決策樹(shù)節(jié)點(diǎn)分支變量數(shù)量為1時(shí),模型的誤判率最低。如圖7所示,對(duì)決策樹(shù)的數(shù)量進(jìn)行分析,當(dāng)決策樹(shù)數(shù)量達(dá)到約380時(shí),模型誤差趨于穩(wěn)定。因此,通過(guò)以上分析,決策樹(shù)節(jié)點(diǎn)變量數(shù)量為1和決策樹(shù)數(shù)量為380構(gòu)建隨機(jī)森林模型。
酒體質(zhì)量分類模型的預(yù)測(cè)效果如表3所示。選取的4535個(gè)樣本集中,包含Q2、Q3、Q4等級(jí)樣本數(shù)量分別為880、2198、1457個(gè)。Q2等級(jí)樣本數(shù)量較少,分類誤差較高,達(dá)到40.9%,Q3、Q4等級(jí)分類誤差分別為17.9%、29.2%,總體分類誤差26.0%。
表2 成分得分系數(shù)矩陣Table 2 Component score coefficient matrix
圖5 理化指標(biāo)權(quán)重Fig.5 Physical and chemical index weight
圖6 三個(gè)質(zhì)量等級(jí)酒的理化指標(biāo)數(shù)據(jù)分布Fig.6 Data distribution of physical and chemical indicators of three quality grade of wine
圖7 決策樹(shù)數(shù)量與誤差關(guān)系圖Fig.7 The relationship between the number of decision trees and the error
表3 6項(xiàng)關(guān)鍵指標(biāo)參數(shù)的決策樹(shù)模型分類預(yù)測(cè)效果Table 3 Classification and prediction effect of decision tree model established by using key indicator parameters
保留原數(shù)據(jù)集中11 項(xiàng)理化指標(biāo),選取4000 個(gè)樣本集,包含Q2、Q3、Q4等級(jí)樣本數(shù)量分別為780個(gè)、1943個(gè)、1277個(gè),采用隨機(jī)森林質(zhì)量分析模型進(jìn)行等級(jí)預(yù)測(cè),決策樹(shù)節(jié)點(diǎn)變量數(shù)量為1和決策樹(shù)數(shù)量為400是獲得最優(yōu)模型,預(yù)測(cè)結(jié)果如表4所示。Q2等級(jí)樣本數(shù)量較少,分類誤差較高,達(dá)到47.4%,Q3、Q4等級(jí)分類誤差分別為15.7%、29.8%,總體分類誤差26.4%
表4 全部指標(biāo)參數(shù)的決策樹(shù)模型分類預(yù)測(cè)效果Table 4 Classification and prediction effect of decision tree model based on all index parameters
數(shù)據(jù)集優(yōu)化前后,各等級(jí)樣本數(shù)據(jù)的分類預(yù)測(cè)結(jié)果相近,總體分類預(yù)測(cè)結(jié)果基本相同,降維優(yōu)化并未影響分類誤差,說(shuō)明密度、殘?zhí)恰]發(fā)性酸、酒精度、硫酸酯和非揮發(fā)性酸與質(zhì)量等級(jí)具有較強(qiáng)的相關(guān)性和預(yù)測(cè)性,可以表達(dá)原始數(shù)據(jù)集的絕大部分特征。
采用可視分析技術(shù)挖掘酒體感官評(píng)價(jià)中的隱性知識(shí),提出一種基于數(shù)據(jù)驅(qū)動(dòng)的酒質(zhì)量評(píng)價(jià)方法。通過(guò)可視化圖模型闡釋高維多元理化指標(biāo)參數(shù)之間的相關(guān)性,以及理化指標(biāo)與酒質(zhì)量等級(jí)之間的相關(guān)性。在此基礎(chǔ)上,采用基于PCA方法提取數(shù)據(jù)集特征信息,對(duì)理化指標(biāo)的重要性進(jìn)行量化分析,篩選關(guān)鍵指標(biāo)作為構(gòu)建質(zhì)量分類評(píng)價(jià)模型的參數(shù)。最后采用隨機(jī)森林建立酒質(zhì)量評(píng)價(jià)模型,模型的預(yù)測(cè)效果與包含全部理化指標(biāo)的模型預(yù)測(cè)效果基本一致,說(shuō)明優(yōu)化后的關(guān)鍵指標(biāo)參數(shù)包含了原數(shù)據(jù)集的大部分特征信息?;诟呔S多元的可視分析方法可以解決感官評(píng)價(jià)不能定量,和復(fù)雜理化分析不能定性的問(wèn)題。與傳統(tǒng)的感官評(píng)價(jià)相比,具有更高的穩(wěn)定性和可靠性,可應(yīng)用于輔助品酒師和釀造師進(jìn)行酒質(zhì)量評(píng)定和生產(chǎn)工藝優(yōu)化。