喬 淼 張 磊 母芳林
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300130)
葡萄酒是一種極具風(fēng)格和個(gè)性化的酒精飲料,不同
產(chǎn)地、不同年份、不同品種和不同工藝條件的葡萄酒均具有顯著的特征[1],其中葡萄品種是決定葡萄酒品質(zhì)的重要因素。目前,鑒別不同品種的葡萄酒的方式主要還是利用品評(píng)專家的感官鑒定[2]來實(shí)現(xiàn),受到個(gè)人經(jīng)驗(yàn)和條件的限制;而現(xiàn)有的儀器分析[3]、理化分析[4]等只能從某一或者某幾個(gè)側(cè)面反映葡萄酒的品質(zhì)。
隨著電子鼻技術(shù)的發(fā)展,很多研究人員開始利用這一技術(shù)對(duì)葡萄酒品質(zhì)特征進(jìn)行快速判別。張振等[5]利用表面聲波型電子鼻對(duì)不同年份的黃酒樣品進(jìn)行采樣,并利用主成分分析法和典型判別分析對(duì)氣體數(shù)據(jù)進(jìn)行分析,成功區(qū)分了4種酒齡黃酒樣品。許春華等[6]利用電子鼻指紋分析系統(tǒng)對(duì)張?jiān)8砂缀烷L(zhǎng)城干紅的氣味進(jìn)行鑒別,并采用主成分分析和線性判別分析法對(duì)傳感器響應(yīng)信號(hào)進(jìn)行分析,實(shí)現(xiàn)了對(duì)葡萄酒的風(fēng)味評(píng)價(jià)。劉奕彤等[7]利用電子鼻檢測(cè)技術(shù)有效地鑒別了西拉、馬瑟蘭和美樂3種品種干紅葡萄酒的香氣差異。宮雪[8]利用電子鼻對(duì)不同葡萄品種釀造葡萄酒進(jìn)行檢測(cè),結(jié)合主成分分析方法和線性判別分析探索電子鼻的識(shí)別能力,結(jié)果顯示,電子鼻能很好地識(shí)別與分區(qū)葡萄酒的品種。
LightGBM是一種集成學(xué)習(xí)算法,具有較優(yōu)的數(shù)據(jù)分類能力,不易過擬合,在食品安全[9]、信用評(píng)級(jí)[10]、電力評(píng)估[11]、疾病預(yù)測(cè)[12]等方面可實(shí)現(xiàn)快速準(zhǔn)確的判別,但目前尚未見其在葡萄酒品種鑒別中的相關(guān)報(bào)道。研究擬提出一種LightGBM結(jié)合電子鼻檢測(cè)的葡萄酒品種快速、準(zhǔn)確識(shí)別方法,以期為葡萄酒檢測(cè)引入性能優(yōu)異的算法。
1.1.1 試驗(yàn)材料
赤霞珠、馬瑟蘭、西拉、梅洛、蛇龍珠、佳美、品麗珠7個(gè)品種干紅葡萄酒樣品:華夏產(chǎn)區(qū)2018年產(chǎn)的原酒,每種樣品100瓶,中糧華夏長(zhǎng)城葡萄酒有限公司。
1.1.2 主要儀器
便攜式電子鼻:PEN3型,由10個(gè)金屬氧化物氣體傳感器矩陣(如表1所示)、氣體采集裝置和信號(hào)處理單元組成,德國(guó)Airsense公司。
表1 PEN3傳感器名稱與性能描述
1.2.1 試驗(yàn)環(huán)境控制 室內(nèi)溫度22~25 ℃,濕度50%~55%。用移液器取每個(gè)酒樣300 mL并將酒樣裝于500 mL燒杯中,用保鮮膜密封,并使其與小瓶中的空氣靜置平衡10 min,使樣品氣體能充分揮發(fā)在密閉燒杯中,待氣體達(dá)到飽和平穩(wěn)狀態(tài)后進(jìn)行正式試驗(yàn)。
1.2.2 電子鼻采樣 采用直接頂空吸氣法,氣體采集前以300 mL/min的速率吸取經(jīng)由活性炭處理的潔凈空氣,對(duì)電子鼻的氣室和氣道進(jìn)行清洗,清洗時(shí)間為60 s;檢測(cè)時(shí),將進(jìn)氣針與補(bǔ)氣針同時(shí)插入保鮮膜密封的燒杯中,電子鼻內(nèi)置氣泵開始工作,以300 mL/min的速率吸取樣品氣體,采集間隔時(shí)間1 s,采樣時(shí)間為90 s;為避免試驗(yàn)過程中人為操作造成的偶然性誤差,確保樣品的準(zhǔn)確性與可靠性,對(duì)同一樣品進(jìn)行3次重復(fù)試驗(yàn)。每次采集后的氣體信息以文本方式保存到計(jì)算機(jī)內(nèi),以便進(jìn)行后續(xù)的數(shù)據(jù)分析處理。
1.3.1 LightGBM算法 LightGBM算法是一種基于GBDT的數(shù)據(jù)模型,是將弱學(xué)習(xí)器組合成強(qiáng)大的學(xué)習(xí)器的集成學(xué)習(xí)算法[13]。算法中使用回歸樹作為弱學(xué)習(xí)器,通過使用每個(gè)預(yù)測(cè)結(jié)果與目標(biāo)值的殘差作為下一個(gè)學(xué)習(xí)的目標(biāo),獲得當(dāng)前殘差回歸樹,每個(gè)樹都學(xué)習(xí)所有先前樹的結(jié)論與殘差,將多個(gè)決策樹的結(jié)果加在一起作為最終預(yù)測(cè)輸出。利用直方圖算法對(duì)特征進(jìn)行預(yù)排序,并利用節(jié)點(diǎn)展開方式進(jìn)行樹的構(gòu)建,是一種高效、高精度、高性能的分類算法。
1.3.2 支持向量機(jī) 支持向量機(jī)(SVM)是在分類分析中的監(jiān)督式演算法,利用分離超平面將兩種或多種類別資料做區(qū)分[14]。當(dāng)資料為線性可分時(shí),支持向量機(jī)透過決策平面將不同類別資料進(jìn)行區(qū)分,資料與決策平面的距離成為邊界,距離越大越能夠明確的區(qū)分資料。面對(duì)非線性的分類問題時(shí),先計(jì)算每個(gè)資料與決策邊界的最小距離,再將所有的距離加總求最大值,得到區(qū)分線為分離超平面。
1.3.3 隨機(jī)森林 隨機(jī)森林(RF)是以決策樹為元分類器,通過隨機(jī)方式建立“森林”對(duì)樣品進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器[15]。使用拔靴法將數(shù)據(jù)隨機(jī)進(jìn)行取后放回的動(dòng)作,在數(shù)據(jù)取出后使用特征袋法隨機(jī)選取訓(xùn)練數(shù)據(jù)集特征來生成決策樹,重復(fù)這樣的動(dòng)作建立出每棵獨(dú)立的決策樹,最后對(duì)多顆決策樹進(jìn)行投票對(duì)分類結(jié)果進(jìn)行評(píng)斷。
1.3.4 BP神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)是由人工神經(jīng)元所組成,以人工神經(jīng)元來模仿生物神經(jīng)元的功能,再由人工神經(jīng)連接成網(wǎng)絡(luò),進(jìn)而達(dá)到模仿生物神經(jīng)網(wǎng)絡(luò)的目的[16]。在多層神經(jīng)網(wǎng)絡(luò)中,由于隱藏層沒有理想輸出值,只能透過計(jì)算最后一個(gè)隱藏層中的誤差來估計(jì)上一層的理想輸出值后來計(jì)算上一層的誤差,通過這種方式一層一層的反向分析傳遞到第一層,稱之為反向傳輸神經(jīng)網(wǎng)絡(luò)(BPNN)。
1.3.5 TPE超參數(shù)尋優(yōu) 以TPE算法對(duì)LightGBM超參數(shù)進(jìn)行自適應(yīng)尋優(yōu),假設(shè)λ1,λ2,…,λn代表模型中選擇的超參數(shù),Λ1,Λ2,…,Λn代表每個(gè)超參數(shù)的選擇域;則模型的超參數(shù)選擇域空間定義為Λ=Λ1×Λ2×…×Λn,假設(shè)訓(xùn)練中的損失函數(shù)L(·),當(dāng)λ∈Λ的超參數(shù)使用k折交叉驗(yàn)證方法時(shí),超參數(shù)的優(yōu)化問題可以表示為最小化公式:
(1)
式中:
f(λ)——k次損失函數(shù)的平均值;
k——交叉驗(yàn)證次數(shù);
TPE算法利用概率模型代理復(fù)雜優(yōu)化函數(shù)[17],概率模型中引入了待優(yōu)化目標(biāo)的先驗(yàn),模型能有效減少不必要的采樣,是考慮歷史參數(shù)的一種搜索方法。TPE使用順序模型全局優(yōu)化(SMBO)方式進(jìn)行超參數(shù)尋優(yōu)[18],利用預(yù)期改進(jìn)法(EI)作為優(yōu)化準(zhǔn)則,使用以往的超參數(shù)推薦下一次的超參數(shù)。
由圖1可觀察到,電子鼻響應(yīng)值的變化趨勢(shì)呈現(xiàn)一定的規(guī)律,在90 s的檢測(cè)過程中,傳感器的響應(yīng)值先突然升高,偏離原有基線,隨著檢測(cè)時(shí)間的延長(zhǎng),傳感器的響應(yīng)值基本達(dá)到穩(wěn)定狀態(tài),其中B、F、G、H、I 5個(gè)傳感器對(duì)葡萄酒氣味響應(yīng)明顯,G、F響應(yīng)值更是高于150,表明葡萄酒中存在甲烷類、烴和硫的有機(jī)成分。其他5種傳感器響應(yīng)值都在5以下,沒有變化或者變化不明顯。通過觀察響應(yīng)曲線,電子鼻設(shè)備能對(duì)葡萄酒進(jìn)行檢測(cè),但想要對(duì)每種品種進(jìn)行建模分析,需要對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的處理。
圖1 傳感器響應(yīng)圖
通過二維多項(xiàng)式擬合傳感器響應(yīng)曲線,其表達(dá)式:
y=A0+A1x+A2x2,
(2)
式中:
y——傳感器吸附過程的響應(yīng)值;
A0、A1、A2——多項(xiàng)式曲線擬合系數(shù);
x——傳感器吸附時(shí)間,s。
采用每條擬合曲線的模型3個(gè)系數(shù)A0、A1、A2作為單個(gè)傳感器特征值。
試驗(yàn)中,共采用到2 100(7種品種×100瓶×3次平行試驗(yàn))組葡萄酒的氣味信息數(shù)據(jù),每組數(shù)據(jù)具有30(10個(gè)傳感器×3個(gè)特征值)維特征。LightGBM算法經(jīng)Python2.7實(shí)現(xiàn),采用TPE超參數(shù)尋優(yōu)算法對(duì)模型超參數(shù)進(jìn)行選擇,其中參數(shù)表述、取值范圍、最終取值情況由表2所示。采用5折交叉驗(yàn)證方法進(jìn)行判別準(zhǔn)確性評(píng)估,將2 100組資料分為5個(gè)子集,每次輪流挑選1個(gè)子集(420組)資料作為驗(yàn)證,剩下的4個(gè)子集(1 680組)數(shù)據(jù)作為訓(xùn)練資料,最后將5次的資料辨別率取平均作為整體的辨別率。
從表3可以看出,LightGBM方法作為改進(jìn)的集成算法在葡萄酒的氣味數(shù)據(jù)挖掘中表現(xiàn)出了優(yōu)秀的判別準(zhǔn)確性。在5折交叉驗(yàn)證中,每次的判別準(zhǔn)確率均高于95%,并在第3次交叉驗(yàn)證中準(zhǔn)確率高達(dá)98.10%,提升了最終的平均準(zhǔn)確率,并且5折交叉驗(yàn)證避免了判別的偶然性與單一性,有力地說明了LightGBM模型的適用性。
為驗(yàn)證所提的LightGBM在葡萄酒鑒別中的分類優(yōu)越性,選擇支持向量機(jī)(SVM)、隨機(jī)森林(RF)、神經(jīng)網(wǎng)絡(luò)(BPNN)3種在電子鼻檢測(cè)中常用的分類算法進(jìn)行結(jié)果的驗(yàn)證與比較。為保證各算法達(dá)到最優(yōu)的效果,同樣采取TPE超參數(shù)尋優(yōu)方法對(duì)模型進(jìn)行優(yōu)化,采用5折交叉驗(yàn)證對(duì)模型進(jìn)行分類準(zhǔn)確性的判別。
由表4可知,4種算法對(duì)葡萄酒鑒別準(zhǔn)確率均高于90%,說明電子鼻結(jié)合模式識(shí)別能有效地判別葡萄酒中葡萄的品種;LightGBM算法取得了最高的判別準(zhǔn)確率,說明LightGBM模型通過不斷擬合前一棵樹的誤差能有效提高分類準(zhǔn)確率。其次為隨機(jī)森林算法,說明對(duì)于特征值與特征向量進(jìn)行隨機(jī)選取構(gòu)建的“森林”能多氣味數(shù)據(jù)進(jìn)行較全面的訓(xùn)練與學(xué)習(xí),但因沒考慮每棵樹產(chǎn)生的誤差其分類效果劣于LightGBM。通過比較得知,經(jīng)典的支持向量機(jī)算法和神經(jīng)網(wǎng)絡(luò)算法在驗(yàn)證集上的效果相對(duì)較差,支持向量機(jī)平均判別準(zhǔn)確率最低為90.53%,并且在第5次交叉驗(yàn)證中準(zhǔn)確率為89.29%,在420個(gè)驗(yàn)證集中有45個(gè)被判別錯(cuò)誤,其分類效果不佳。說明支持向量機(jī)在對(duì)葡萄酒氣味信息進(jìn)行分類時(shí)無法尋找到最優(yōu)的分線性映射函數(shù),無法對(duì)多品種的葡萄酒數(shù)據(jù)構(gòu)建最優(yōu)的分類超平面。相較于支持向量機(jī),神經(jīng)網(wǎng)絡(luò)展現(xiàn)了較優(yōu)良的分類效果,在5折交叉驗(yàn)證中其分類準(zhǔn)確率均高于90%,并且平均準(zhǔn)確率為92%僅次于隨機(jī)森林算法,說明誤差反向傳播的神經(jīng)網(wǎng)絡(luò)算法通過不斷減小誤差能達(dá)到較好的分類效果,然而每次訓(xùn)練樣本僅為1 680個(gè),神經(jīng)網(wǎng)絡(luò)無法得到最優(yōu)的訓(xùn)練,固其分類效果欠佳。
表2 超參數(shù)信息
表3 LightGBM模型的5折交叉驗(yàn)證的測(cè)試集判別準(zhǔn)確率
Table 3 5-fold cross-vaidation method for accuracy of LightGBM model in test set
交叉驗(yàn)證次數(shù)準(zhǔn)確率/%交叉驗(yàn)證次數(shù)準(zhǔn)確率/%第1次96.19第4次97.38第2次95.95第5次95.48第3次98.10平均值96.62
表4基于5折交叉驗(yàn)證的不同算法測(cè)試集準(zhǔn)確率
Table 4 5-fold cross-vaidation method for accuracy of different algorithm model in test set%
利用電子鼻對(duì)赤霞珠、馬瑟蘭、西拉、梅洛、蛇龍珠、佳美、品麗珠7種葡萄酒的氣味進(jìn)行采集。通過觀察傳感器響應(yīng)曲線提出二次多項(xiàng)式擬合方法對(duì)曲線進(jìn)行擬合,提取多項(xiàng)式3個(gè)系數(shù)作為90 s傳感器信號(hào)的特征值,大大地降低了特征值的維度。然后,提出LightGBM算法對(duì)不同品種葡萄酒進(jìn)行區(qū)分,并利用TPE參數(shù)尋優(yōu)方法對(duì)算法進(jìn)行改進(jìn),最后對(duì)比支持向量機(jī)、隨機(jī)森林、反向傳輸神經(jīng)網(wǎng)絡(luò)算法的分類效果,結(jié)果表明LightGBM模型的5折交叉驗(yàn)證平均準(zhǔn)確率為96.62%,分類準(zhǔn)確度最高,驗(yàn)證了所提算法在葡萄酒品種鑒別中的優(yōu)越性。
試驗(yàn)探索了電子鼻和LightGBM模型在葡萄酒品種檢測(cè)中的可行性,為提高判別準(zhǔn)確率后續(xù)將進(jìn)一步探索電子鼻數(shù)據(jù),通過特征選擇方法選取更具代表的葡萄酒氣味特征對(duì)其進(jìn)行分析。