袁 荔,施 斌,于建成,唐天宇,袁 園,唐延林
貴州大學(xué)物理學(xué)院,貴州 貴陽 550025
化學(xué)計(jì)量學(xué)是光譜分析技術(shù)中的重要組成部分,它包括光譜預(yù)處理,光譜降維,光譜定量、定性模型建立等內(nèi)容。在實(shí)際應(yīng)用中,由于光譜數(shù)據(jù)可能具有信號強(qiáng)度弱、信號重疊、外界噪聲干擾大等問題,導(dǎo)致分析結(jié)果精度低,穩(wěn)定性差[1]。在此背景下,運(yùn)用光譜降維算法與日俱增。常用的降維方法有主成分分析(principal component analysis,PCA)、競爭自適應(yīng)重加權(quán)采樣(the competitive adaptive reweighting algorithm,CARS)、連續(xù)投影算法(successive projections algorithm,SPA)、移動窗口偏最小二乘法(the moving window partial least squares method,MWPLS)等。Omar等使用PCA算法對煙草光譜降維,結(jié)合偏最小判別分析算法(PLS-DA)對煙草商標(biāo)進(jìn)行判別[2]。Leqian等基于可見-近紅外光譜利用蟻群算法和CARS算法檢測與分類葡萄酒的品質(zhì)參數(shù)[3]。Dong等采用協(xié)同區(qū)間偏最小二乘法(partial least square regression,PLSR)和極值學(xué)習(xí)機(jī)結(jié)合自適應(yīng)增強(qiáng)算法將紅茶的發(fā)酵質(zhì)量與近紅外光譜建立定量分析模型,結(jié)果表明該算法能夠?qū)t茶發(fā)酵品質(zhì)實(shí)行在線監(jiān)測[4]。Song等利用Haar,Sym,Coif和Bior小波對遺傳算法選擇的光譜數(shù)據(jù)再次壓縮,然后根據(jù)各小波函數(shù)壓縮的變量建立PLS模型[5]。
紅茶是全球范圍內(nèi)飲用最廣的茶葉之一,遍及亞洲、非洲、歐洲等各個(gè)國家。紅茶帶有獨(dú)特的物質(zhì)成分(茶黃素,茶紅素,茶褐素等),使其受到醫(yī)藥、食品和各個(gè)相關(guān)領(lǐng)域的關(guān)注與研究[6-7]。Dey等發(fā)現(xiàn)口服紅茶提取物(BTE)會改變實(shí)驗(yàn)性白化大鼠妊娠期和哺乳期大鼠血液和肝臟的參數(shù)[8]。Ji等發(fā)現(xiàn)紅茶多糖可以顯著抑制H22腫瘤細(xì)胞的生長,有效保護(hù)腫瘤小鼠的胸腺和脾臟[9]。Lantano等通過對不同茶的冷熱浸泡,研究出提高綠茶與紅茶中活性物質(zhì)含量的新的浸漬方法[10]。Dash等在海水體系中利用首次沖泡后產(chǎn)生的紅茶殘?jiān)a(chǎn)生物乙醇,以減少生物乙醇工業(yè)對淡水的消耗[11]。
盡管現(xiàn)有的光譜數(shù)據(jù)降維算法層出不窮,研究人員仍然不斷在改善這些算法的不利之處[12-13]。在中國農(nóng)業(yè)大學(xué)宋相中提出的基于移動窗口平滑集成策略的特征波段挑選算法(moving window smoothing ensemble CARS,MWS-ECARS)基礎(chǔ)上,考慮在該算法中使用不同的窗口平滑算法來挑選特征變量,并篩選出用于紅茶等級判別效果最優(yōu)的光譜數(shù)據(jù)降維算法,為光譜數(shù)據(jù)的選擇性降維提供參考。
微型植物粉碎機(jī),天津市泰斯特儀器有限公司生產(chǎn)。荷蘭Avantes公司生產(chǎn)的Avaspec-2408標(biāo)準(zhǔn)型光纖光譜儀,測定范圍為350~1 100 nm,光譜采樣間隔為4 cm-1,掃描次數(shù)為10次,探頭視場角為15°。
5個(gè)等級的紅茶樣本均購自貴州省太升茶行,分別為特級、一級、二級、三級、四級,每個(gè)等級茶葉樣品數(shù)分別為40個(gè),每個(gè)等級人為隨機(jī)以3∶1的比例劃分為校正集與預(yù)測集,最后得到校正集150個(gè),預(yù)測集50個(gè)樣品。校正集用于建模,預(yù)測集用于驗(yàn)證模型的可靠性。將200個(gè)紅茶樣本通過微型植物粉碎機(jī)粉碎后,用40目標(biāo)準(zhǔn)分樣篩篩濾,最后盛放在高為0.4 cm、直徑為2.2 cm的黑色培養(yǎng)皿中,壓平樣品表面,減少粗糙表面造成的光能量損失。在密不透光的環(huán)境中測樣品光譜,保持光纖頭距離樣品表面1.6 cm,每次測量先進(jìn)行“白板”校正,后采集樣品光譜,以減少環(huán)境和儀器帶來的誤差。
使用The Unscrambler X(CAMO Software AS公司)及Matlab(2015)(MathWorks公司)軟件進(jìn)行數(shù)據(jù)的處理與分析,MWS-ECARS計(jì)算過程由自編Matlab程序和The Unscrambler X軟件共同實(shí)現(xiàn)。
MWS-ECARS算法原理是: 采用窗口平滑算法對多次重復(fù)運(yùn)行CARS得到的波長累積被選頻率做平滑處理,以保留高頻波長點(diǎn)及其附近的有效波長; 通過設(shè)定頻率閾值,將大于閾值的波長選出作為特征波長,由于特征波長點(diǎn)鄰近的有效波長頻率往往略低于高頻特征波長,也會保留,所以最后被挑選出來的特征變量通常會形成特征波段[9]。
200個(gè)紅茶樣本的可見-近紅外光譜如圖1所示,光譜范圍為350~1 100 nm。由于在350~400和1 000~1 100 nm波段內(nèi)的光譜受噪聲影響較大,選取400~1 000 nm范圍的波段參與后續(xù)的鑒別建模。
圖1 紅茶的可見-近紅外光譜Fig.1 Visible-near infrared spectra of black tea
表1 不同預(yù)處理方式與PLSR建模結(jié)果Table 1 The PLSR model result of different pretreatments
2.3.1 基于MWS-ECARS的光譜數(shù)據(jù)降維
設(shè)定CARS運(yùn)行次數(shù)為1 000,三種平滑算法的頻率平滑窗口寬度均為3~31,寬度步長為2,頻率閾值為20~700,閾值步長為20。由于篇幅限制,僅列出特征變量挑選變化明顯的結(jié)果,黑色曲線是預(yù)處理以后的光譜曲線,彩色柱形圖是特征變量區(qū)域,柱形圖與黑色曲線重疊區(qū)域是算法選擇的特征變量。圖2是基于MA-ECARS挑選的特征變量,平滑窗口寬度分別是3,17和31,閾值均為140,窗口寬度較小時(shí),特征變量區(qū)間小且數(shù)目多,覆蓋范圍廣。隨著平滑窗口寬度增加,特征變量離散程度逐漸降低,特征波段區(qū)間變大,且大窗口寬度的區(qū)間數(shù)目比小窗口少。在三種MWS-ECARS算法中(MA-ECARS,MF-ECARS,GF-ECARS)都不同程度上展現(xiàn)出這種規(guī)律。
圖3是以窗口中值濾波為平滑算法的MF-ECARS提取的特征變量部分情況,平滑窗口寬度為5,15和23,閾值均為80。從圖中可知,隨著窗口寬度的增加,提取的變量區(qū)間數(shù)目減少,連續(xù)性增強(qiáng)。但選擇的平滑算法不同,挑選的特征變量仍與MA-ECARS提取有所不同。
圖4是以窗口高斯濾波為平滑算法的GF-ECARS挑選特征變量部分情況,平滑窗口寬度分別為5,19和31,閾值均為200。GF-ECARS提取特征變量的情況也有所不同。
圖2 基于不同窗口寬度的MA-ECARS挑選的特征變量(a): 窗口寬=3; (b): 窗口寬=17; (c): 窗口寬=31Fig.2 Characteristic variables selected by MA-ECARS based on different window widths(a): Window width=3; (b): Window width=17; (c): Window width=31
圖3 基于不同窗口寬度的MF-ECARS挑選的特征變量(a): 窗口寬=5; (b): 窗口寬=15; (c): 窗口寬=23Fig.3 Characteristic variables selected by MF-ECARS based on different window widths(a): Window width=5; (b): Window width=15; (c): Window width=23
圖4 基于不同窗口寬度的GF-ECARS挑選的特征變量(a): 窗口寬=5; (b): 窗口寬=19; (c): 窗口寬=31Fig.4 Characteristic variables selected by GF-ECARS based on different window widths(a): Window width=5; (b): Window width=19; (c): Window width=31
2.3.2 基于連續(xù)投影算法(SPA)和競爭自適應(yīng)重加權(quán)算法(CARS)的光譜數(shù)據(jù)降維
使用SPA算法和CARS算法從預(yù)處理后的光譜數(shù)據(jù)中挑選出特征波長,分別如圖5,圖6所示。SPA挑選出5個(gè)特征波長: 400.29,430.90,472.54,673.17和943.50 nm。CARS挑選出93個(gè)特征波長,幾乎分布在光譜變化明顯的位置。
2.3.3 移動窗口偏最小二乘法(MWPLS)挑選特征波段
基于MWPLS算法挑選的特征波段如表2所示。設(shè)定窗口寬度為90~210,窗口步長取10,主成分?jǐn)?shù)目為4~10。對于每一個(gè)特定寬度的窗口,在主成分?jǐn)?shù)為10時(shí),交叉驗(yàn)證均方根誤差為最小值。由表中知道,選擇的特征變量為796.69~913.73 nm區(qū)間,因?yàn)榇藭r(shí)預(yù)測集均方根誤差(RMSEP)最小。
圖5 SPA挑選的特征波長Fig.5 Characteristic wavelengths selected by SPA
圖6 CARS挑選的特征波長Fig.6 Characteristic wavelengths selected by CARS
表2 基于移動窗口偏最小二乘法挑選(MWPLS)的特征波段Table 2 Characteristic bands selected by movingwindow partial least squares (MWPLS)
表3 不同特征變量挑選方法與PLSR建模Table 3 The PLSR model of different selectionmethods of characteristic variables
圖7 GF-ECARS-PLSR預(yù)測結(jié)果Fig.7 The prediction results of GF-ECARS-PLSR
為了較大程度上消去外界因素對模型建立的干擾,將獲得的200個(gè)樣本光譜進(jìn)行6種方法預(yù)處理,其中高斯濾波平滑的建模效果最好,預(yù)測集相關(guān)系數(shù)最高,所以選擇經(jīng)高斯濾波平滑后的數(shù)據(jù)進(jìn)行后續(xù)的實(shí)驗(yàn)處理。其次,使用MWS-ECARS,SPA,CARS以及MWPLS 4種數(shù)據(jù)降維方式對預(yù)處理后的數(shù)據(jù)提取特征變量。結(jié)果顯示,MWS-ECARS算法中的GF-ECARS算法提取的特征變量建立的偏最小二乘回歸模型結(jié)果最好,相關(guān)系數(shù)達(dá)到0.969 2。
對于四種不同的降維算法,SPA由于選擇的特征變量數(shù)目過少,失去了樣品光譜中部分細(xì)節(jié)信息。通過CARS得到的特征變量盡管建模的效果不錯(cuò),但由于該算法中引入了隨機(jī)參數(shù),每次運(yùn)行后得到的特征變量和數(shù)目都不相同,所以建立的定性定量模型穩(wěn)健性較差。同時(shí),從光譜建模的角度上發(fā)現(xiàn)用特征波段的建模結(jié)果通常比用特征波長好,因?yàn)榫哂袠悠沸畔⒌哪骋徊ㄩL點(diǎn)鄰近的部分波長也具有樣品的光譜信息,所以,用MWPLS和改進(jìn)的MWS-ECARS提取特征波段建模效果相對較好。MWPLS選擇的特征變量僅為某段光譜區(qū)域,不夠全面,建模效果不會十分出色。改進(jìn)的三種MWS-ECARS雖然提取的特征變量情況不同,但都在很大程度上覆蓋了光譜信息,提取的特征波段區(qū)間大小可變,具有特征波長與波段同時(shí)選擇,在一定程度上降低了變量的冗余性和保留了有效信息的連續(xù)性。盡管窗口平滑算法不同,但它們建模的結(jié)果都顯示出MWS-ECARS的穩(wěn)定性和優(yōu)異性,對于基于可見-近紅外光譜的紅茶樣品等級判別GF-ECARS算法是最合適的。在前人的基礎(chǔ)上,提出基于不同窗口平滑算法的兩種MWS-ECARS算法對紅茶等級進(jìn)行光譜判別是可行的。