賈柳君,張海紅,王健,李宗朋,李子文,熊雅婷,李冬冬
1(中國食品發(fā)酵工業(yè)研究院,北京,100015) 2(寧夏大學 農(nóng)學院,寧夏 銀川,750021)
采用近紅外光譜定量分析葡萄酒發(fā)酵液中總酸含量和pH值
賈柳君1,2,張海紅2,王健1*,李宗朋1,李子文1,熊雅婷1,李冬冬2
1(中國食品發(fā)酵工業(yè)研究院,北京,100015) 2(寧夏大學 農(nóng)學院,寧夏 銀川,750021)
利用近紅外光譜分析技術(shù)對葡萄酒發(fā)酵液中總酸含量和pH值進行定量分析,并通過偏最小二乘法(PLS)建立定量分析模型,同時采用組合間隔偏最小二乘法(SiPLS)、移動窗口偏最小二乘法(MWPLS)并結(jié)合遺傳算法(GA)對整個譜區(qū)進行光譜特征波長變量篩選。以決定系數(shù)(R2) 、校正標準偏差(RMSEC)、預測標準偏差(RMSEP)、相對分析誤差(RPD)以及最佳主因子數(shù)作為模型質(zhì)量的評價指標。其中SiPLS-GA對模型的優(yōu)化效果最佳,總酸含量和pH值優(yōu)化模型的R2分別達到0.978 5和0.983 8,RMSEC為0.074 5和0.065 4,RMSEP為0.076 3和0.062 7,RPD為4.85和5.58。結(jié)果表明:進行變量篩選可提高模型準確度和穩(wěn)定性,降低解析難度,達到優(yōu)化模型的作用。
葡萄酒;總酸;pH;近紅外光譜技術(shù);定量分析;波段篩選
隨著葡萄酒市場的迅猛發(fā)展,人們對其品質(zhì)有了更高的要求,而葡萄酒品質(zhì)與其發(fā)酵過程中各項指標的變化息息相關(guān)[1]。其中,葡萄酒中澀味、澄清效果和微生物活性等因素的穩(wěn)定在很大程度上受到總酸含量和pH值變化的制約[2-3]。目前采用傳統(tǒng)方法檢測總酸含量和pH值時,前處理復雜,使用化學試劑可能會對環(huán)境造成污染,很難進行大量樣品的快速檢測,監(jiān)測信息滯后[4]。
近紅外光譜分析技術(shù)具有分析速度快、檢測效率高、操作簡便、無需前處理且無污染、可同時對樣品的多個指標進行檢測,快速完成大批量樣品生產(chǎn)過程的監(jiān)測等優(yōu)點,已應用到了食品、藥品、化妝品、石油化工等許多行業(yè)[5]。目前,基于近紅外技術(shù)的葡萄酒快速檢測方面,國內(nèi)外學者進行了大量的研究[6-8]。研究均表明了近紅外光譜技術(shù)可用于葡萄酒發(fā)酵液中主要參數(shù)的檢測,但在總酸含量和pH值的定量分析中,對波段和模型進行深入篩選優(yōu)化的研究較為少見。
本研究擬對葡萄酒發(fā)酵液中總酸含量和pH值進行快速無損檢測,利用組合間隔偏最小二乘法(SiPLS)、移動窗口偏最小二乘法(MWPLS)并結(jié)合遺傳算法(GA)對全光譜波段進行篩選優(yōu)化,探討分析這幾種波段篩選方法對葡萄酒發(fā)酵液中總酸含量和pH值預測模型效果的影響,提高模型準確度和穩(wěn)定性。
1.1 材料與試劑
本試驗所用葡萄酒發(fā)酵液樣品共416個,由某葡萄酒企業(yè)提供,采用透反射方式掃描采集葡萄酒發(fā)酵液的近紅外光譜。葡萄酒發(fā)酵液中總酸含量根據(jù)GB/T 15038—2006《葡萄酒、果酒通用分析方法》,采用指示劑法測定,pH值由pH計測定。
1.2 儀器與設備
實驗使用Buchi N-500傅立葉變換近紅外光譜儀,瑞士步琦有限公司。光譜儀光源為鹵鎢燈,檢測器為溫控InGaAs,配有高性能測量杯及透反射蓋。光譜范圍為4 000~10 000 cm-1,分辨率為8 cm-1,掃描次數(shù)為32次;利用配套軟件NIRWare Operator 采集葡萄酒發(fā)酵液樣品的近紅外光譜信息。
1.3 實驗方法
1.3.1 校正集與驗證集的劃分
在隨機保留50個葡萄酒發(fā)酵液樣本作為獨立測試集的基礎上,采用 Kennard-Stone(K-S)法[9]以2∶1的比例將剩余366個樣品進行樣本集和驗證集的劃分。選擇校正集樣本244個,驗證集樣本122個。校正集與驗證集的值統(tǒng)計如表1所示。
表1 校正集與驗證集統(tǒng)計結(jié)果
1.3.2 光譜預處理
為了消除近紅外光譜中的基線漂移和不重復性等干擾因素對模型的影響,提高模型穩(wěn)定性與準確度,本試驗采用標準正態(tài)變量變換(SNV)對光譜進行預處理[10]。
1.3.3 光譜變量選擇
為了剔除無效波長變量,簡化模型簡析難度,提升模型穩(wěn)定性和預測精度,分別采用SiPLS、MWPLS并結(jié)合GA對全光譜1501個變量進行優(yōu)化選擇,同時采用PLS法建立模型。選取決定系數(shù)(R2)、校正標準偏差(RMSEC)、預測標準偏差(RMSEP)、相對分析誤差(RPD)以及最佳主因子數(shù)來評價模型穩(wěn)定性與預測能力[11]。R2越接近1,RMSEC與 RMSEP越接近并越小,同時RPD大于3時,則表明建立的模型效果越好[12]。
1.3.4 數(shù)據(jù)處理與分析
SiPLS、MWPLS、GA等程序通過MATLAB完成,偏最小二乘計算應用 Unscrambler X10.3光譜分析軟件實現(xiàn)。
2.1 光譜波段優(yōu)選
2.1.1 組合間隔偏最小二乘波段選擇法( synergy interval PLS,SiPLS)優(yōu)選特征區(qū)間
SiPLS是將全光譜劃分成k個均勻子區(qū)間后,組合不同區(qū)間個數(shù)并建模,最終選擇RMSECV值最小的組合區(qū)間進行建模[13]。本實驗k的取值范圍為10~40,取值間隔為5,組合數(shù)范圍為1~4。經(jīng)計算得出總酸含量和pH值在k為25,組合數(shù)為4時,經(jīng)過SiPLS篩選得到的RMSECV值最小,分別為0.101 7和0.081 3。總酸含量和pH值的波段篩選結(jié)果如表2所示,分別選擇[3、8、13、24]和[2、3、12、13]組合波段建模。2個指標經(jīng)篩選所得變量數(shù)均為240個,占全光譜的16%。
表2 總酸和pH的SiPLS優(yōu)化結(jié)果
2.1.2 移動窗口偏最小二乘波段選擇法(moving window PLS,MWPLS)優(yōu)選特征區(qū)間
MWPLS是通過改變并移動窗口寬度,依次應用在窗口范圍內(nèi)的光譜數(shù)據(jù)建模,篩選出RMSECV值最小的區(qū)間組合為最優(yōu)的建模波段[14]。本實驗設定窗口寬度取值范圍為101~201,取值間隔為10??偹岷蚿H值2個指標的原始光譜在不同窗口寬度下篩選的波段組合及其模型結(jié)果見表3。如表3所示,窗口寬度為分別為191和151時,總酸和pH值的建模效果最優(yōu),R2分別達到0.968 4和0.976 8,總酸和pH值2個指標經(jīng)MWPLS篩選所得變量數(shù)分別為472和436個,僅占全光譜的31.4%和29.1%。
2.1.3 遺傳偏最小二乘波段選擇法 (genetic algorithms PLS,GA-PLS)優(yōu)選特征區(qū)間
GA-PLS是基于生物進化論,模擬自然界進化機制的一種優(yōu)化算法,通過選擇頻率最高的波長建模來挑選特征變量[15]。但是,若光譜的波長變量數(shù)過多,進行波長選擇時可能會出現(xiàn)過擬合的現(xiàn)象。因此,本試驗在SiPLS和MWPLS進行預選擇的基礎上結(jié)合GA-PLS進一步對總酸含量和pH值2個指標進行波長變量的篩選。
表3 原始光譜在不同窗口下MWPLS選取的最優(yōu)波段及模型評價結(jié)果
設定GA-PLS優(yōu)化參量:初始群體為30,交叉概率為0.5,變異概率為0.01,遺傳迭代次數(shù)為100。圖1中(a)、(b)、(c)、(d)為總酸含量和pH值2個指標分別通過GA-SiPLS和GA-MWPLS篩選后的各變量被選用的頻次圖,分別選取大于等于4、2、3、4次頻率,篩選出相應頻率在前68、149、73、174位的波長變量,占全光譜的4.5%、9.9%、4.9%、11.5%。
(a)總酸 SiPLS-GA;(b)總酸 MWPLS-GA;(c) pH SiPLS-GA;(d) pH MWPLS-GA圖1 各變量被選用的頻次圖Fig.1 The frequency of each variable by chosen
2.2 模型建立與評價
經(jīng)過上述4種方法的篩選,分別建立葡萄酒發(fā)酵液中總酸含量和pH值的全光譜-PLS、SiPLS、MWPLS、SiPLS-GA、MWPLS-GA定量模型,并對決定系數(shù)(R2)、校正標準偏差(RMSEC)、預測標準偏差(RMSEP)、相對分析誤差(RPD)以及最佳主因子數(shù)進行比較,來評價模型效果,模型優(yōu)化結(jié)果如表4所示。
從表4可看出,與全光譜建模相比,采用上述4種方法進行變量篩選后,建模所用變量數(shù)均有不同程度的減少,R2增加的同時RMSEP和最佳主因子數(shù)相對降低,模型分析效果均優(yōu)于全譜模型。SiPLS和MWPLS篩選所得波長變量數(shù)極大的減少,簡化了建模的復雜程度,通過將相關(guān)性大的子區(qū)間進行優(yōu)化組合建模,去除信息冗余的區(qū)間,使得建模所用光譜更加全面有效,模型的分析精度更高[16]。相比之下,MWPLS的分析波段跨度較大,涉及的波長變量數(shù)較多,而SiPLS較之MWPLS篩選所得特征波長變量更少,建模的計算效率得到極大提升的同時不失參數(shù)代表性,模型效果略優(yōu)。
表4 總酸和pH的不同 PLS 模型及性能評價結(jié)果
SiPLS-GA和MWPLS-GA則是在SiPLS與MWPLS的基礎上對波長變量進行更進一步的篩選,在剔除無信息變量的同時,淘汰了光譜中共線性變量及受外界因素影響較大的波長變量,優(yōu)選出最能表征目標信息的關(guān)鍵性波長變量,極大的減少變量數(shù),有效的降低了模型復雜程度,提高了模型信噪比。通過這兩種方法篩選出的特征波長中有多數(shù)波段一致,這些波長變量與樣本在近紅外區(qū)的特征吸收峰相近,能真實地反映出樣本所含C—O、CO、C—H、O—H等官能團,如在4 184 cm-1處為C—H伸縮振動和COH彎曲振動的組合頻吸收,在4 630 cm-1和4 696 cm-1處的一個雙峰歸屬為C—H伸縮振動和CO伸縮振動的組合頻吸收,4 800 cm-1處為OH伸縮振動和C—H彎曲振動的組合頻吸收,在5 292 cm-1處的吸收峰,歸屬為OH伸縮振動和CO伸縮振動的組合頻等,反映出葡萄酒發(fā)酵液中總酸含量和pH值的特征波長[17]。
其中采用SiPLS-GA篩選后所得變量建立的葡萄酒發(fā)酵液中總酸含量和pH值定量模型的優(yōu)化效果最佳,建模所用變量數(shù)最少,模型的適應性、擬合程度和預測能力最為理想。R2分別達到0.978 5和0.983 8,RMSEC為0.074 5和0.065 4,RMSEP為0.076 3和0.062 7,RPD為4.85和5.58,最佳主成分數(shù)為7和6。
2.3 模型驗證
將獨立樣本測試集中50個樣品的光譜通過SiPLS-GA模型進行驗證,如圖2中(a)、(b)所示,總酸含量和pH值的實測值與預測值點呈現(xiàn)對角線分布,且經(jīng)成對t檢驗,各參數(shù)的預測值與實測值無顯著差異。經(jīng)驗證,葡萄酒發(fā)酵液中總酸含量和pH值的R2分別為0.975 3和0.981 1,RMSEP為0.075 2和0.063 4,說明這2個模型的預測結(jié)果較為準確。
(a)總酸;(b) pH圖2 總酸含量和pH值的SiPLS-GA模型理化值與預測值分布Fig.2 Predicted vs. reference values of total acid and pH in SiPLS-GA model
本文分別采用組合間隔偏最小二乘法(SiPLS)、移動窗口偏最小二乘法(MWPLS)并結(jié)合遺傳算法(GA)對光譜特征波長進行篩選,得出以下結(jié)論:
結(jié)合上述4種波段篩選方法,分別建立葡萄酒發(fā)酵液中總酸含量和pH值定量分析模型,模型質(zhì)量均有所優(yōu)化,不僅極大的減少了建模變量數(shù),簡化了建模的復雜程度,同時大幅提升了模型的穩(wěn)定性和預測能力,證明了近紅外光譜技術(shù)在葡萄酒發(fā)酵液中總酸含量和pH值定量分析方面的可行性和巨大潛力,同時說明了波長變量篩選是優(yōu)化模型的有效措施。
采用SiPLS-GA法進行波段篩選后所建模型的效果優(yōu)于其余3種方法,在保留總酸含量和pH特征波長區(qū)間的同時剔除大量冗余無效信息,達到波長變量優(yōu)選并提高模型預測精度和穩(wěn)定性的目的,同時篩選得到的波長與總酸含量和pH在近紅外區(qū)域中的特征吸收峰相對應,反映了這2個指標所含的主要基團。因此,利用SiPLS-GA法結(jié)合PLS法建立模型,可實現(xiàn)對葡萄酒發(fā)酵液中總酸含量和pH進行快速、實時、準確、無損檢測的要求,并為該指標的快速檢測提供一定參考依據(jù)。
[1] 張紅梅,曹晶晶.中國葡萄酒產(chǎn)業(yè)的現(xiàn)狀和趨勢及可持續(xù)發(fā)展對策[J].農(nóng)業(yè)現(xiàn)代化研究,2014, 35 (2):183-187.
[2] 邢凱,張春婭,張美玲,等.總酸、pH值與紅葡萄酒穩(wěn)定性的關(guān)系[J].中外葡萄與葡萄酒,2004(5):13-14.
[3] 陳曉前,張鐵.試述pH值與葡萄酒的關(guān)系[J].釀酒,2002(2):62-63.
[4] 張樹明,楊陽,梁學軍,等.葡萄酒發(fā)酵過程主要參數(shù)近紅外光譜分析[J].農(nóng)業(yè)機械學報,2013,44(11):152-156.
[5] 丁美珍,宋岑,胡志明,等.近紅外光譜技術(shù)在酒類產(chǎn)品分析中的應用[J].釀酒科技,2013,34(4):68-70.
[6] 張樹明,楊陽,倪元穎,等.近紅外光譜和電子鼻技術(shù)用于葡萄酒發(fā)酵過程中酒精度的定量分析[J].光譜學與光譜分析,2012, 32 (11):2 997-3 001.
[7] URBANO CUADRADO M,LUQUE DE CASTRO MD,PEREZJUAN PM, et al. Near infrared reflectance spectroscopy and multivariate analysis in enology: Determination or screening of fifteen parameters in different types of wines[J].Anal Chim Acta,2004,527(1): 81-88.
[8] 王豪,鄔蓓蕾,林振興.傅立葉變換近紅外光譜法快速測定葡萄酒中的酒精度[J].中國釀造,2008,27(4):72-74.
[9] 褚小立.化學計量學方法與分子光譜分析技術(shù)[M].北京:化學工業(yè)出版社,2011:4.
[10] 鄒小波,黃曉瑋,石吉勇,等. 銀杏葉總黃酮含量近紅外光譜檢測的特征譜區(qū)篩選[J].農(nóng)業(yè)機械學報,2012,43(9):155-159.
[11] 嚴衍祿,陳斌,朱大洲.近紅外光譜分析的原理、技術(shù)與應用[M].北京:中國輕工業(yè)出版社,2013:165-174.
[12] HE Kaixun, CHENG Hui, DU Wenli, et al. Online up-dating of NIR model and its industrial application via adaptive wavelength selection and local regression strategy[J]. Chemometrics and Intelligent Laboratory Systems,2014,134(15) : 79-88.
[13] 彭海根,彭云發(fā),詹映,等.近紅外光譜技術(shù)結(jié)合聯(lián)合區(qū)間間隔偏最小二乘法對南疆紅棗糖度的測定[J].食品科技,2014,40(6) : 276-280.
[14] 趙振英,林君,張福東,等.近紅外光譜法分析油頁巖含油率中波長選擇方法的研究[J].光譜學與光譜分析,2014,34(11):2 948-2 952.
[15] 張初,劉飛,孔汶汶.利用近紅外高光譜圖像技術(shù)快速鑒別西瓜種子品種[J].農(nóng)業(yè)工程學報,2013,29(20):270-277.
[16] 張德濤,鄒小波,石吉勇,等.近紅外光譜結(jié)合不同偏最小二乘法快速檢測鎮(zhèn)江香醋的渾濁度[J].中國釀造,2012, 31 (1):169-172.
[17] JERRY WORKMAN,JRLOIS WEYER.近紅外光譜解析實用指南[M].褚小立,許育鵬,田高友,譯.北京:化學工業(yè)出版社,2009.
Determination of total acid and pH in wine fermented liquidby near infrared spectroscopy technology
JIA Liu-jun1,2, ZHANG Hai-hong2, WANG Jian1*, LI Zong-peng1,LI Zi-wen1, XIONG Ya-ting1, LI Dong-dong2
1(China National Research Institute of Food & Fermentation Industries, Beijing 100015, China)2(College of Agriculture, Ningxia University, Yinchuan 750021, China)
The total acid content and pH of wine fermented liquid were quantitatively analyzed using Near Infrared Spectroscopy, and the ment of the quantitative analysis model was established by partial least squares method, while the variables of spectral characteristic wavelength in the entire region of the spectrum were screened through SiPLS, MWPLS, and GA.R2,RMSEC, RMSEP, RPD, and the best main factors were used as index forevaluation of model quality. The results showed that variable selection could be optimized to obtain role model and improve its recognition accuracy and stability, thus reduce the analytical difficulty. The optimization effect of SiPLS-GA was the best.R2of optimization mode for total acid content and pH value were 0.978 5 and 0.983 8, RMSEC were 0.074 5 and 0.065 4,RMSEP were 0.076 3 and 0.062 7, and RPD were 4.85 and 5.58.
red wine; total acid; pH; near infrared spectroscopy; quantitative analysis; band selection
10.13995/j.cnki.11-1802/ts.201702032
碩士研究生(王健高級工程師為通訊作者,E-mail:onlykissjgohn@hotmail.com)。
國家自然科學基金(31671937)
2016-07-20,改回日期:2016-11-14