吳正宗, 王 芳, 徐恩波, 徐學明, 焦愛權*
傅立葉紅外光譜技術快速檢測黃酒中的氨基酸質量濃度
吳正宗1,2, 王 芳1,2, 徐恩波1,2, 徐學明1, 焦愛權*1,2
(1.江南大學 食品學院,江蘇 無錫214122;2.食品科學與技術國家重點實驗室,江南大學,江蘇 無錫214122)
氨基酸含量是評價黃酒質量和風味的一項重要指標。為了實現(xiàn)對黃酒中氨基酸質量濃度的快速檢測,作者探索了將傅立葉紅外光譜技術(FT-IR)應用于黃酒中的17種自由氨基酸質量濃度的快速檢測的可行性,同時采用協(xié)同區(qū)間偏最小二乘算法(SiPLS)和遺傳算法(GA)選出有效波長以期提高模型的預測精度。實驗結果顯示與基于全波長光譜建立的經典偏最小二乘算法模型相比,基于SiPLS和GA選出來的有效光譜變量而建立的回歸模型的精度有顯著提高,尤其是對半胱氨酸(Cys)、精氨酸(Arg)和脯氨酸(Pro)。此外,對于所有的氨基酸,GA-SiPLS模型效果最好,交互驗證相關系數(shù)均大于0.80,殘余預測偏差均大于2.00。因此,F(xiàn)T-IR結合特征譜區(qū)篩選方法可以作為常規(guī)檢測的一種替代手段實現(xiàn)對黃酒中的自由氨基酸的快速檢測。
波長選擇;傅立葉變換紅外光譜;氨基酸;遺傳算法;協(xié)同區(qū)間偏最小二乘算法
黃酒中的氨基酸也是黃酒的風味物質的前驅體。氨基酸以其具有的鮮、甜、苦、澀、酸等諸多味感賦予黃酒豐富的味覺層次,使其具有鮮美、柔和、濃郁、柔潤和協(xié)調的特征[1-3]。此外,黃酒中的氨基酸質量濃度還可被用來實現(xiàn)產地溯源及真假鑒定[1]。因此,準確的對黃酒中的氨基酸進行定量分析不論對于黃酒的營養(yǎng)價值和風味評估,還是對酒質的控制都具有重要的意義。
目前,黃酒中氨基酸的檢測方法主要是高效液相色譜法(HPLC)、毛細管電泳法和氨基酸自動分析儀法。此外,采用氣相色譜法檢測氨基酸成分的方法也已有報道[4]。盡管這些分析方法通常精確、可靠,但依然有著諸如需要復雜冗長的樣品預處理、耗時等諸多缺點,難以適應現(xiàn)代化的大工業(yè)生產。因此,急需一種簡便、經濟的分析方法來實現(xiàn)氨基酸的快速測定,從而降低成本、提高效率。
紅外光譜技術因其快速、無損、綠色的特點引起人們的關注和重視,近年來,其已作為常規(guī)化學檢測的一種替代手段被廣泛應用在組分測定、產地溯源和過程控制等諸多領域[5-7]。在氨基酸的檢測方面,已有許多研究者成功的將近紅外光譜技術(FTNIR)應用到大豆、花生等原料中的氨基酸質量濃度檢測中[8-9],然而,采用傅立葉紅外光譜技術對原料中的氨基酸含量進行快速檢測的研究則較少。目前,僅Subramanian等[10]采用FT-IR對奶酪成熟過程中的有機酸和氨基酸含量進行快速檢測。已有學者證明FT-NIR更適用于對表征總量的參數(shù)的測定,而FT-IR則在單個組分質量濃度的預測方面更有優(yōu)勢。此外,之前的研究建立的模型往往是基于全波長的偏最小二乘模型(PLS)。全光譜中包含很多共線變量和無關變量。如果這些變量包含在建模變量中,模型精度將不可避免的受影響。
因此,作者采用FT-IR技術來實現(xiàn)對黃酒中氨基酸含量的快速檢測,并使用波長選擇算法提高模型預測精度,以期為黃酒中氨基酸質量濃度的快速檢測提供幫助。
1.1 樣品來源
試驗共采用109份黃酒樣品。其中23個樣品來自“古越龍山”,22個樣品來自“閩族紅”,23個樣品來自“女兒紅”,20個樣品來自“塔牌”,21個樣品來自“西塘”。為增加回歸模型的穩(wěn)健性,同一品牌的黃酒樣品取自不同生產批次(日期)。
1.2 儀器設備
Nicolet iS10傅立葉紅外光譜儀:美國賽默飛公司產品;Ag1100液相色譜儀:美國安捷倫公司產品。
1.3 實驗方法
1.3.1 氨基酸含量的測定 色譜柱采用ODS HYPERSIL(250 mm×4.6 mm,5 μm),柱溫保持在40℃,采用雙流動相梯度洗脫。
1.3.2 紅外光譜掃描 首先光譜儀開機預熱半小時,然后用移液槍取100 μL黃酒樣品置于晶片上進行紅外光譜掃描。光譜采集條件為:掃描范圍525~4 000 cm-1,分辨率4 cm-1,掃描次數(shù)16,光譜間隔點1.93 cm。使用去離子水按照與樣品相同的條件掃描作為空白對照。每次完成掃描后,使用去離子水清洗晶片,并用紙巾擦拭干凈。每個樣品采集3次光譜,以克服樣品的不均勻性。數(shù)據(jù)采集使用OMINIC軟件。
1.3.3 多變量回歸模型的建立 使用 MATLAB 2010a軟件(美國MathWorks公司)對紅外光譜數(shù)據(jù)和氨基酸數(shù)據(jù)進行定量模型的構建。為了消除基線漂移、顆粒散射及高頻隨機噪音等影響造成的誤差,更有效的提取光譜中的有效信息,建模前,采用平滑(Smooth)、矢量歸一化(SNV)、多元散射校正(MSC)、一階導數(shù)(D1)、二階導數(shù)(D2)及基線校正(BC)6種光譜預處理方法對紅外光譜進行處理。選出交互驗證均方根誤差(RMSECV)最小的方法作為各個氨基酸最佳的預處理方法。同時,采用了主成分分析(PCA)探索了紅外光譜用于不同品牌黃酒區(qū)分的可能性。作者建立了3種回歸模型。首先建立了基于全波長的經典PLS模型,然后用SiPLS選出最佳的子區(qū)間組合,建立SiPLS模型,最后用GA進一步提取有效波長變量,減少冗雜變量,基于這些與氨基酸含量高度相關的幾十個變量,建立GASiPLS模型。RMSECV、預測均方根誤差(RMSEP)、交互驗證相關系數(shù) (R2(cal))、預測相關系數(shù)(R2(pre))及殘余預測偏差(RPD)被用來評價所建立的回歸模型的穩(wěn)健性和預測性能。一般來說,相關系數(shù)和殘余預測偏差取值越大,均方根誤差取值越小,模型的穩(wěn)健性越好。R2和RPD評價模型的標準如表1所示。各個氨基酸的最佳波長預處理方法如表2所示。
表1 回歸模型的評價標準Table 1 Criteria used for the evaluation of calibration models
表2 各個氨基酸的最佳光譜預處理方法Table2 Optimal preprocessing methods for spectra detection of different amino acids
2.1 氨基酸化學參考值結果分析
通過分析剔除1個異常樣本后,剩下的108個黃酒樣本采用隔三選一法劃分為校正集和預測集。具體分類方法如下:首先將108個黃酒樣品的氨基酸含量按照從高到低的順序排列,然后將每4個樣品作為一個小集合,其中的任意3個劃分到校正集中,另一個劃分到預測集中,如此循環(huán),最終校正集中含有81個樣品,預測集中有27個樣品。校正集樣本用于黃酒各指標近紅外模型的建立,驗證集樣本用于驗證所建模型的準確度與可靠性。兩個子集中樣品的氨基酸含量的最大值、最小值、平均值和標準偏差如表3所示。各種氨基酸的含量之間差異很大。以校正集中數(shù)值為例,甘氨酸(Gly)質量濃度最高,其平均值高達529.00 mg/L,其次是丙氨酸(Ala)和亮氨酸 (Leu),它們的平均值都在300.00 mg/L以上,剩下的14種氨基酸質量濃度較少,平均值在16.67~291.75 mg/L之間。除了氨基酸的質量濃度高,黃酒中氨基酸的另一個特點是“質量好”,表2可見,黃酒中富含人體必需的8種氨基酸中的7種(賴氨酸(Lys)、苯丙氨酸(Phe)、甲硫氨酸(Met)、蘇氨酸(Thr)、異亮氨酸(Ile)、亮氨酸(Leu)和纈氨酸(Val))。其中賴氨酸尤為重要,因為它對人體的生長有著重要的作用。黃酒各種氨基酸均展現(xiàn)出了很寬的質量濃度范圍,這可能是由于各個酒廠采用的釀造技術和生產原料不同。較寬的質量濃度范圍十分有利于構建穩(wěn)健、可靠的模型。此外,校正集中各個氨基酸的含量范圍包含了整個預測集的范圍,且兩個子集的標準偏差基本相同,這說明,樣品合理的分配到了兩個子集中。
為了更好地理解不同氨基酸之間的關系,作者進行了相關性分析。17種氨基酸之間展現(xiàn)出了很強的相關性。很多氨基酸之間的Pearson相關系數(shù)高達0.90以上。
2.2 黃酒的紅外光譜譜圖解析
由圖1可以看出,黃酒的紅外光譜中有著豐富的吸收峰。其中1 500~1 700 cm-1和3 050~3 650 cm-1區(qū)域處的兩個負的特征吸收峰是由水產生的。1 045 cm-1處的強吸收峰則由乙醇產生,2 900 cm-1和2 985 cm-1附近的吸收峰也是由乙醇中的甲基和亞甲基C-H的伸縮振動所產生的。900~1 500 cm-1處的眾多復雜的吸收峰主要來源于糖類、有機酸和蛋白質的中的CH-OH的伸縮振動。不同黃酒樣品吸收光譜波形相似,但又不完全重合,既顯示了不同樣品之間的差異,又顯示了大樣本群體的基本一致性。
表3 各個氨基酸的化學參考值Table 3 Chemical reference values of different amino acids
圖1 所有黃酒樣品的FT-IR光譜圖Fig.1 Raw FT-IR spectra of all Chinese rice wine samples
2.3 主成分分析
PCA是一種無監(jiān)督的模式識別技術,通常用來作為多變量分析的第一步達到降維和提取有效信息的目的。這里,作者采用PCA來探索使用FT-IR達到對不同品牌的黃酒進行區(qū)分的可能性。從圖2中可以看出,除了“閩族紅”,其它4個品牌的樣品相互聚集、覆蓋,沒有明顯的區(qū)分趨勢?!伴}族紅”品牌的黃酒產地是福建省,主要采用紅曲作為糖化劑進行發(fā)酵,而“古越龍山”、“女兒紅”、“塔牌”和“西塘”4個黃酒品牌均來自浙江省,它們主要使用麥曲。兩者工藝有顯著區(qū)別,造成化學成分含量和種類的明顯不同,因此它們的紅外光譜上也會有所不同。
圖2 黃酒樣品的前兩個主成分的得分圖Fig.2 Score plot of the first two principal components(PC1 and PC2)of Chinese rice wine samples
2.4 模型構建和評價
2.4.1 協(xié)同區(qū)間偏最小二乘算法 (SiPLS) SiPLS是由Norgaard等提出的一種特征光譜區(qū)間篩選算法,它是在經典偏最小二乘法基礎上的拓展和延伸。其具體步驟如下:(1)將全波長區(qū)域分成一定數(shù)量的等寬子區(qū)間;(2)對組合區(qū)間數(shù)目為2、3、4的所有組合建立PLS模型;(3)計算出每個模型的RMSECV,選出最小的RMSECV對應的子區(qū)間組合,用來建立SiPLS模型。本實驗中,將整個光譜區(qū)域分別劃分為11、12、·…,25個子區(qū)間,以考查不同子區(qū)間劃分數(shù)目對回歸模型穩(wěn)健性的影響。各個氨基酸的最優(yōu)區(qū)間劃分數(shù)目、子區(qū)間組合及選出的具體波長區(qū)間如表4所示。圖3是SiPLS為Val選出的最佳光譜組合區(qū)間。
表4 17種氨基酸的最佳SiPLS參數(shù)Table 4 Optimal parameters of SiPLS models for 17 amino acids
圖3 SiPLS為Val選出的最佳子區(qū)間組合Fig.3 Optimal combination of subintervals for Val selected by SiPLS
2.4.2 遺傳算法(GA) 遺傳算法又稱進化算法,是一種通過模擬自然進化過程搜索最優(yōu)解的方法。該算法能自動獲取優(yōu)化空間,自動調整搜索方向,可有效消除無關變量的干擾。然而單純的采用遺傳算法對光譜變量進行處理,往往需要數(shù)小時的時間,運行時間過長。用GA對SiPLS選出的波長變量進行進一步的提取,并在最終選出的變量的基礎上建立GA-SiPLS模型。既節(jié)省了時間、簡化了模型,還可以有效解決SiPLS存在的共線性問題。本實驗中遺傳算法的具體參數(shù)設置如下:初始群體大小30,變異概率1%,交叉概率50%,迭代次數(shù)100。由于GA選出的波長變量具有隨機性的特點,本實驗中對于每個氨基酸,GA均運行10次,RMSECV最小的一組選出的變量用來建立回歸模型(GA-SiPLS)。對于GA而言,選擇哪些變量及選擇變量的數(shù)目是兩個最關鍵的問題。以Val為例,圖4是基于SiPLS選出來的所有變量在100次運行中被選擇的頻率的直方圖。在這張圖中可以很直觀的看出每個變量被選擇的頻數(shù),直方圖越高,代表被選擇次數(shù)越多,與化學參數(shù)(氨基酸)的相關性越大,對模型構建的貢獻也就越大。圖5是變異系數(shù)(C.V.)關于包含在模型中的變量個數(shù)的函數(shù)關系圖。隨著包含在模型中的變量數(shù)目增加,C.V.逐漸增大,最終達到一個最大值保持穩(wěn)定或略有下降。C.V.達到最大時對應的變量個數(shù)即是最佳變量數(shù)目。這時,從圖4中按照各變量的頻數(shù)高低選出相應數(shù)目的具體波長變量。
圖4 運行100次后所有變量被GA選擇的頻率的直方圖Fig.4 Histogram of frequency of selection of each variable after 100 runs by the GA
圖5 變異系數(shù)(C.V.)關于包含在模型中變量個數(shù)的函數(shù)曲線Fig.5 C.V.(%)explained variance as a function of the number of variables included
2.5 模型的建立與評價
在SiPLS和GA篩選結果基礎上,分別建立黃酒中各個自由氨基酸的SiPLS模型和GA-SiPLS模型,并與基于全光譜建立的經典PLS模型進行比較。3種回歸模型的結果如表5所示。
2.5.1 偏最小二乘模型(PLS) 其中 Asp,Glu,His,Gly,Thr,Ala,Val,Phe,Leu的PLS模型的R2(pre)均在0.85~0.86之間,RPD則均在2.50~3.00之間,根據(jù)表1中的標準,這些氨基酸的PLS模型得到了很好的預測結果。Ser,Tyr,Met,Ile,Lys的PLS模型的R2(pre)在0.77~0.84之間,RPD則在2.07~2.50之間,這些氨基酸的PLS模型的預測精度一般,只能用于掃描黃酒中的氨基酸質量濃度的高、中、低值。Arg,Cys和Pro的PLS模型結果最差,它們的RPD值均小于2,說明PLS模型不能用于預測這3種氨基酸。Shen等[15]得到了類似的結果。Pro的結果較差,可能是因為Pro的響應較低,造成參考值測定誤差較大。Cys和Arg預測結果也不理想則可能是由于黃酒中存在的其它復雜化合物干擾了兩者的測定。
2.5.2 協(xié)同區(qū)間偏最小二乘模型 (SiPLS) 從表5中可以看出,對于所有的氨基酸,與經典PLS模型相比,基于SiPLS進行波長優(yōu)化后選出的光譜區(qū)間建立的模型的預測精度和模型穩(wěn)健性均有顯著提高。除Ser,Arg,Tyr,Cys和Pro外,其余12種氨基酸的SiPLS模型的RPD均大于3.00,這表明,這12種氨基酸得到了極好的回歸模型。由表4可知,對于所有的自由氨基酸,SiPLS選出的波長主要集中在900~1 900 cm-1的區(qū)域里。而這一光譜區(qū)間主要與N=O、C=O的伸縮振動及N-H的彎曲振動有關。這些化學鍵又均與氨基酸密切相關。因此,SiPLS不僅可以去除大部分全光譜中存在的無信息變量和共線變量,而且最大程度的保留了與氨基酸質量濃度相關的光譜變量。因此,相比于經典PLS模型,SiPLS模型的預測性能有明顯提高。
2.5.3 協(xié)同區(qū)間聯(lián)合遺傳算法偏最小二乘模型(GA-SiPLS) 盡管SiPLS淘汰了大部分冗雜的的光譜變量,但是選擇出的相鄰光譜區(qū)間之間的光譜變量及同一個光譜區(qū)間內的變量之間仍存在共線性,少量冗余光譜信息仍然存在。因此,如表5所示,SiPLS的模型精度略低于GA-SiPLS。
經過GA和SiPLS的雙重篩選而建立的GASiPLS模型與PLS模型相比,模型預測精度有很大提升。對于所有的氨基酸,R2(pre)均大于0.80,RPD則均大于2.00,表明經波長篩選后,可所建立的模型可應用于對所有氨基酸的預測。這對于Cys,Pro,和Arg尤其重要,對于Cys,經過波長篩選后,RPD由PLS模型的1.92上升到GA-SiPLS模型的2.50,由不能應用于預測到可很好的用于對Cys質量濃度的預測。對Pro和Arg,基于全波長的PLS模型不能用于對兩者質量濃度的預測,而經過波長選擇后建立的GA-SiPLS模型則可應用于對Pro和Arg的精確掃描。此外,全波長有1 660個變量,而經過GA和SiPLS雙重篩選后,最多含有102個變量(Pro),波長變量減少了93.86%。既簡化了回歸模型,又節(jié)省了模型運行時間。
以成品黃酒為研究目標,綜合考慮了多個黃酒品牌,采用傅立葉紅外光譜技術對酒中的17種自由氨基酸進行了定量檢測,同時利用SiPLS和GA多波長變量進行優(yōu)選,以提高模型的穩(wěn)定性和預測精度。結果表明,經波長篩選,模型精度得到了極大地提升,同時建模變量數(shù)目大大降低,此外,優(yōu)選出的波長變量與氨基酸特征官能團高度相關,說明波長篩選提高了回歸模型的可解釋性。
表5 17種氨基酸的PLS,SiPLS和GA-SiPLS模型的預測結果Table 5 Statistic results of FT-IR equations of 17 amino acid contents based on PLS,SiPLS and GA-SiPLS models
[1]SHEN F,YING Y Y,LI B B,et al.Multivariate classification of rice wines according to ageing time and brand based on amino acid profiles[J].Food Chemistry,2011,129(2):565-569.
[2]ZHANG Ying,WANG Jialin,YU Qinfeng.Meaurment of total nitrogen content and amino acid content in Miaofu rice wine[J]. Liquor-Making Science&Technology,2011,208(10):98-100.(in Chinese)
[3]LI Bobin,ZENG Jinhong,LIU Xingquan,et al.Study on quantitative relationships between amino acids and sensory taste of yellow rice wine[J].Liquor-Making Science&Technology,2011,208(10):98-100.(in Chinese)
[4]HASEGAWA H,SHINOHARA Y,MASUDA N,et al.Simultaneous determination of serine enantiomers in plasma using Mosher's reagent and stable isotope dilution gas chromatography-mass spectrometry[J].Journal of Mass Spectrometry,2011,46(5):502-507.
[5]SHEN F,YING Y Y,LI B B,et al.Prediction of sugars and acids in Chinese rice wine by mid-infrared spectroscopy[J].Food Research International,2011,44(5):1521-1527.
[6]FENG Yu,GU Xiaohong,TANG Jian,et al.Discrimination of tea varieties by mid-infrared spectroscopy combined with pattern recognition[J].Journal of Food Science and Biotechnology,2007,26(2):7-11.(in Chinese)
[7]YANG Lijun,LI Zhaojie,WANG Jing,et al.Rapid differentiation and identification of three species of Listeria by FT-IR spectroscopy[J].Journal of Food Science and Biotechnology,2013,32(2):169-173.(in Chinese)
[8]KOVALENKO I V,RIPPKE G R,HURBURGH C R,et al.Determination of amino acid composition of soybeans(Glycine max)by near-infrared spectroscopy[J].Journal of Agricultural and Food Chemistry,2006,54(10):3485-3491.
[9]WANG L,WANG Q,LIU H Z,et al.Determining the contents of protein and amino acids in peanuts using near-infrared reflectance spectroscopy[J].Journal of the Science of Food and Agriculture,2013,93(1):118-124.
[10]SUBRAMANIAN A,ALVAREZ V B,HARPER W J,et al.Monitoring amino acids,organic acids,and ripening changes in Cheddar cheese using Fourier-transform infrared spectroscopy[J].International Dairy Journal,2011,21(6):434-440.
Rapid Determination of Amino Acids in Chinese Rice Wine by Fourier Transform Infrared Spectroscopy
WU Zhengzong1,2, WANG Fang1,2, XU Enbo1,2, XU Xueming1, JIAO Aiquan*1,2
(1.School of Food Science and Technology,Wuxi 214122,China;2.State Key Laboratory of Food Science and Technology,Wuxi 214122,China)
The content of amino acid in Chinese rice wine(CRW)is one of the most important indexes to evaluate the quality and flavor of Chinese rice wine.In order to rapidly determine the contents of free amino acids in CRW,the possibility of Fourier transform infrared spectroscopy(FT-IR)for the fast detection of 17 different kinds of free amino acids in CRW wasdiscussed. Synergy interval partial least squares(SiPLS)and genetic algorithm (GA)were used to select the most efficient spectral variables to improve the prediction precision of the classical partial least squares(PLS)model based on the full-spectrum.Compared with the PLS model based on the full-spectrum,the prediction accuracy of model based on the spectral variables selected by SiPLS and GA was significantly improved,especially for cysteine,arginine and proline.In addition,GA-SiPLS model showed the most efficient prediction accuracy to all of the free amino acids,with thecorrelation coefficient of cross-validation higher than 0.80 and the residual predictive deviation larger than 2.00.The FT-IR combined with efficient variable selection algorithms is confirmed as a useful method to replace the traditional methods for routine analysis of free amino acids in CRW.
variable selection,fouriertransform infrared spectroscopy,amino acids,genetic algorithm,synergy interval partial least squares
TS 251.5
A
1673—1689(2017)01—0034—07
2015-02-05
國家“十二五”科技支撐計劃項目(2012BAD37B02;2012BAD37B06)。
*通信作者:焦愛權(1982—),男,江蘇泰州人,工學博士,副教授,碩士研究生導師,主要從事食品組分與物性研究。
E-mail:jinlab2008@yahoo.com
吳正宗,王 芳,徐恩波,等.傅立葉紅外光譜技術快速檢測黃酒中的氨基酸質量濃度[J].食品與生物技術學報,2017,36(1):34-40.