歐陽愛國,蔡會周,李 斌,劉 剛
(1.華東交通大學(xué)機電與車輛工程學(xué)院,水果智能光電檢測技術(shù)與裝備國家地方聯(lián)合工程研究中心,南昌330013;2.江西聯(lián)創(chuàng)宏聲電子股份有限公司,南昌330096)
苯甲酸(C6H5COOH)又叫安息香酸,是一種很重要的化工原料,在食品工業(yè)、化學(xué)工業(yè)以及醫(yī)藥等領(lǐng)域有十分廣泛應(yīng)用[1]。在食品工業(yè)領(lǐng)域經(jīng)常作為防腐劑使用,在抑制菌類生長方面具有很突出的作用[2]。所以在食品工業(yè)中常用作食品添加劑使用,但是人體攝入過量的苯甲酸則會產(chǎn)生一定的毒性,輕者會引起流口水、心跳加快和記憶力衰退等癥狀,嚴(yán)重者可能會致癌或發(fā)生再生障礙性貧血[3]等病癥。因此,控制苯甲酸的使用量有很大的實際意義,找到一種能夠快速、有效地檢測苯甲酸含量的方法很有必要。
目前檢測苯甲酸含量的方法主要有3種:色譜法、電泳法和紫外分光光度法。高效液相色譜法是使用比較多的方法,具有檢測結(jié)果準(zhǔn)確的優(yōu)點,但是這種方法存在投入大、操作難度高的特點[4]。HSU等人利用在線動態(tài)pH值掃描毛細(xì)管電泳法測定食品中苯甲酸和山梨酸[5],它的優(yōu)點是檢測速度快、穩(wěn)定性高和準(zhǔn)確度高,但是對檢測設(shè)備投入很高,且人員操作難度很大[6]。紫外分光光度法成本比較低,分析的靈敏度也高,但是檢測準(zhǔn)確性很差[7]。
太赫茲光譜法作為一種新的光譜分析方法,在近十幾年里受到了越來越多人的關(guān)注。與紅外光譜相比,太赫茲時域光譜(terahertz time-domain spectroscopy,THz-TDS)技術(shù)具有對環(huán)境熱輻射不敏感、光源穩(wěn)定等特點。此外,由于太赫茲波長較長,散射效應(yīng)較弱,THz-TDS技術(shù)采用相干測量技術(shù),可以同時提供電場的幅值和相位信息,更方便地得到樣品的吸收系數(shù)、折射率譜或復(fù)介電常數(shù)譜。因此,THz-TDS被廣泛應(yīng)用于化學(xué)、生物、醫(yī)學(xué)、工業(yè)、安全監(jiān)測等領(lǐng)域,對材料進(jìn)行定性和定量的分析[8]。YIN等人利用太赫茲技術(shù)結(jié)合偏最小二乘法(partial least square,PLS)和支持向量回歸算法,建立橡膠中的添加劑瓦斯炭黑的定量分析模型,結(jié)果表明,利用太赫茲技術(shù)結(jié)合支持向量回歸算法能夠得到較好模型,得到預(yù)測集相關(guān)系數(shù)Rp=0.998,預(yù)測集均方根誤差(root mean square error of prediction,RMSEP)eRMSEP=2.098%[9]。FANG等人利用太赫茲光譜技術(shù)檢測小麥中偶氮甲酰胺的含量,利用最小二乘法建立數(shù)學(xué)模型,預(yù)測集相關(guān)系數(shù)達(dá)到了0.999,預(yù)測集均方根誤差 eRMSEP=0.06%[10]。LIU等人利用太赫茲技術(shù)結(jié)合偏最小二乘法檢測葛粉中苯甲酸含量,得到預(yù)測集相關(guān)系數(shù)Rp=0.975,預(yù)測集均方根誤差 eRMSEP=1.126%[11],但是在建模方法上單一,不能說明PLS建模得到效果最好。
本文中利用太赫茲時域光譜技術(shù)對玉米粉中的苯甲酸含量進(jìn)行定量檢測,通過太赫茲時域光系統(tǒng)獲得玉米粉和苯甲酸混合物的太赫茲吸收光譜。根據(jù)太赫茲波的特點對樣品進(jìn)行定量分析,采用偏最小二乘法、最小二乘支持向量機(least squares support vector machine,LS-SVM)和多元線性回歸(multiple linear regression,MLR)等3種建模方法建立苯甲酸質(zhì)量分?jǐn)?shù)的數(shù)學(xué)模型,比較這3種模型,得到苯甲酸質(zhì)量分?jǐn)?shù)分析的最優(yōu)模型。為快速、無損地檢測檢測苯甲酸含量提供了方法。
實驗中所用的THz-TDS系統(tǒng)由日本Advantest公司研制,系統(tǒng)使用兩個超短脈沖激光器(1.55μm)做偏置輸出(太赫茲波產(chǎn)生)和信號輸入(太赫茲波探測)。飛秒激光脈沖輸出功率為20mW,中心波長為1550nm,寬度為50fs,重復(fù)頻率為50MHz。太赫茲波對水分比較敏感,為了減少實驗誤差,將太赫茲電磁輻射通過的光路封閉在氮氣箱內(nèi),在實驗過程中,濕度保持在4%的恒定值。
實驗中所使用苯甲酸的純度大于99%,購自阿拉丁試劑網(wǎng)。所有樣品均在40℃的溫度下烘干1h以去除水分。本文中將苯甲酸按0~0.200的質(zhì)量分?jǐn)?shù)與玉米粉混合用于光譜分析,制備了33種不同質(zhì)量分?jǐn)?shù)的苯甲酸和玉米粉的混合物,每個質(zhì)量分?jǐn)?shù)制備4個樣品,樣本的質(zhì)量分?jǐn)?shù)組成如表1所示。質(zhì)量分?jǐn)?shù)間隔0.005,一共132個樣本。所有混合物都在混勻器上被均勻混合,然后用液壓機在10MPa的壓力下壓1min,取出壓片。壓片的形狀為圓形,直徑13mm,厚度1mm左右。將這些樣品密封在貼有標(biāo)簽的袋子里,最后利用太赫茲設(shè)備獲得樣本的太赫茲光譜信息。
Table1 Mass fractions of 33 benzoic acid samples
所有測量均采用日本愛德萬公司生產(chǎn)的太赫茲系統(tǒng)進(jìn)行。實驗記錄參考太赫茲信號Eref(t)和樣本的太赫茲時域信號Esam(t),利用快速傅里葉變換(fast Fourier transform,F(xiàn)FT)算法可以得到光譜。根據(jù)菲涅耳公式,大多數(shù)低損耗材料的THz振幅透射率可以表示為:
式中,Eref(ω)和Esam(ω)分別為參考信號和樣本信號的THz脈沖;A和φ分別為基準(zhǔn)信號和樣本信號的幅值比和相位差,n為樣本折射率,N=n+i k為樣品的復(fù)折射率,k為消光系數(shù);d為樣片厚度,是角頻率,c是真空中的光速。由(1)式得到相對折射率n(ω)和相對吸收系數(shù)α(ω)。
采用PLS,LS-SVM和MLR 3種建模方法進(jìn)行建模分析。將132個樣本按3∶1隨機分為校正組和預(yù)測組,其中校正組樣本99個,預(yù)測組樣本33個。PLS是常用的多元線性回歸方法之一,PLS從光譜數(shù)據(jù)中提取正交特征,建立特征與目標(biāo)變量之間的相關(guān)性[12]。本文中采用PLS建立了苯甲酸樣品吸收系數(shù)與頻率的關(guān)系,用于苯甲酸樣品的定量分析。
LS-SVM是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來的一種新的模式識別方法[13]?;谥С窒蛄炕貧w理論,建立了苯甲酸質(zhì)量分?jǐn)?shù)的支持向量機預(yù)測模型,確定懲罰因子和核參量是支持向量機模型的關(guān)鍵[14]。采用交叉驗證法選擇支持向量機的懲罰因子和核參量。圖1是支持向量機預(yù)測模型流程圖。采用交叉驗證法選擇模型的最佳參量[8]。
Fig.1 Flow chart of LSSVM regression prediction model
使用多元線性回歸的前提是自變量之間必須是相互獨立的,但是采集的光譜變量之間在一定程度上都會有某種程度的相關(guān)關(guān)系,出現(xiàn)統(tǒng)計學(xué)意義上的多從共線的問題。在進(jìn)行多元線性回歸方法建模前,需要減小數(shù)據(jù)的多重線性關(guān)系,而減小這種關(guān)系最常用的方法是對數(shù)據(jù)進(jìn)行降維,提取數(shù)據(jù)的主要特征,本文中通過連續(xù)投影算法(successive projections algorithm,SPA)對數(shù)據(jù)進(jìn)行線性特征提取,然后將提取的特征作為輸入,利用多元線性回歸建立數(shù)學(xué)模型[15]。
利用標(biāo)定集對模型進(jìn)行了交叉驗證均方根誤差(root mean square error of cross valibration,RMSECV)優(yōu)化,并根據(jù)預(yù)測集均方根誤差eRMSEP、預(yù)測集相關(guān)系數(shù)Rp、校正集相關(guān)系數(shù)Rc和校正集均方根誤差(root mean square error of calibration,RMSEC)eRMSEC4個方面對模型的性能進(jìn)行了評價。均方根誤差(root mean square error,RMSE)eRMSE和相關(guān)系數(shù)R定義如下:
式中,yp,i是第 i個樣本的預(yù)測質(zhì)量分?jǐn)?shù),yr,i是第 i個樣本的標(biāo)稱質(zhì)量分?jǐn)?shù)。yr和yp分別代表所有樣本標(biāo)稱和預(yù)測值的平均值,m表示參與計算樣品數(shù)。
Fig.2 Terahertz time domain spectrograma—pure benzoic aci—partial terahertz absorption spectra of benzoic acid mixtures with different mass fractions
圖2 a是純苯甲酸太赫茲光譜圖。從圖中可以得知,苯甲酸的吸收峰位置在1.98THz處,苯甲酸的太赫茲吸收只在1.98THz前后比玉米粉的吸收強,因此這個峰值可以作為苯甲酸定量檢測的指紋特征。圖2b中是苯甲酸混合物樣品在0.5THz~3THz之間的太赫茲吸收光譜,樣品太赫茲吸收強度近似地隨頻率的變大而增強,隨著苯甲酸的質(zhì)量分?jǐn)?shù)增加,在1.98THz處出現(xiàn)吸收峰。光譜中除了有自身的化學(xué)信息外,還存在很多其它跟樣品的無關(guān)信息[16],比如說電噪聲和雜散光等,以及固體顆粒的大小、表面散射等對光透射的影響,在建模前對光譜數(shù)據(jù)進(jìn)行預(yù)處理,可以有效地消除這些無關(guān)信息帶來的影響,本實驗中共采用了5種預(yù)處理方法分別處理數(shù)據(jù),移動平均平滑算法、標(biāo)準(zhǔn)正態(tài)變換、多元散射校正和基線校正等對光譜數(shù)據(jù)進(jìn)行預(yù)處理。
2.2.1 偏最小二乘法 本文中按3∶1隨機劃分建模集和預(yù)測集,其中建模集樣品99個,預(yù)測集樣品33個。采用移動平均平滑法、標(biāo)準(zhǔn)正態(tài)變換法(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)、基線校正和歸一化等預(yù)處理方法,然后用偏最小二乘法進(jìn)行建模,表2是利用偏最小二乘法建模得到的模型結(jié)果。結(jié)果顯示,采用移動平均平滑算法對光譜進(jìn)行預(yù)處理得到的效果稍微好些,其它4種預(yù)處理方法處理后建模結(jié)果反而比用原始光譜數(shù)據(jù)進(jìn)行建模得到的模型結(jié)果更差。其中采用移動平均平滑算法,窗口數(shù)為5時效果最佳,其 Rp=0.98151,eRMSEP=0.01125,表2中是偏最小二乘法模型預(yù)測結(jié)果。
在光譜分析過程中,其PLS主因子數(shù)的選擇和模型的實際預(yù)測能力直接相關(guān),選取的主因子數(shù)過少,則會很難充分地表達(dá)測試樣品的光譜信息,選取的主因子數(shù)過多的,則會加入過多的噪聲,直接影響模型的預(yù)測能力。圖3是PLS的均方根誤差隨主成分因子數(shù)變化圖。從圖中可以看出,在主成分因子數(shù)小于3的時候出現(xiàn)了過擬合現(xiàn)象,但主成分因子數(shù)為7時,校正集均方根誤差趨于穩(wěn)定,預(yù)測集均方根誤差略微有點上升。因此,選擇主因子數(shù)為7時作為最佳主成分?jǐn)?shù)。圖4是隨著頻率變化的回歸系數(shù)變化的圖。圖中反應(yīng)的是不同頻率對模型的影響大小。回歸系數(shù)越大,對模型的影響越大,從圖中可以看出在1.98THz處有最大的回歸系數(shù),這個位置正好也是苯甲酸的太赫茲特征峰位置,說明苯甲酸含量對模型影響很大。
Table 2 PLSmodel results of different pretreatment methods
Fig.3 RMSE varies with principal component factor 0f PLS
Fig.4 Regression coefficients
Fig.5 Scatters plots of calibration and prediction results of Benzoic acid content by PLS
圖5 為經(jīng)過移動平均平滑法,窗口數(shù)為5時的PLS苯甲酸質(zhì)量分?jǐn)?shù)預(yù)測模型的散點圖。Rc=0.98611,eRESEC=0.01002,Rp=0.98151,eRMSEP=0.01125。
2.2.2 最小二乘支持向量機回歸模型(LS-SVM) 為了得到較好的數(shù)學(xué)模型,本文中還采用了最小二乘支持向量機對玉米粉中苯甲酸質(zhì)量分?jǐn)?shù)建立建模,LSSVM模型的精度主要有3個因素確定,分別是輸入變量、核函數(shù)的類型和核函數(shù)的參量。采用原始光譜和移動平均平滑法預(yù)處理過的數(shù)據(jù)作為輸入,其中移動平均平滑法的窗口數(shù)為5??疾霯S-SVM的預(yù)測能力,主要從兩種核函數(shù)出發(fā),用線性核函數(shù)和徑向基(radial basis function,RBF)核函數(shù)兩種類型的核函數(shù)分別建立數(shù)學(xué)模型,γ和σ2是徑向基核函數(shù)主要考慮的兩個參量,而線性核函數(shù)主要考慮1個參量γ,其模型的結(jié)果如表3所示,t是運算時間[17-18]。從表中可以看出,不管是否進(jìn)行預(yù)處理,采用徑向基核函數(shù)比采用線性核函數(shù)的效果好,在都使用核函數(shù)的情況下,使用原始光譜所建的苯甲酸質(zhì)量分?jǐn)?shù)模型在γ=1980.3968,σ2=51.8468時模型最好,此時Rp=0.9958,eRMSEP=0.0057。
Table 3 LS-SVM model prediction results
圖6是最小二乘支持向量機苯甲酸質(zhì)量分?jǐn)?shù)預(yù)測模型的散點圖。圖6a是原始數(shù)據(jù)苯甲酸質(zhì)量分?jǐn)?shù)預(yù)測模型散點圖,圖6b是經(jīng)過預(yù)處理后的苯甲酸質(zhì)量分?jǐn)?shù)預(yù)測模型散點圖。其中原始數(shù)據(jù)在徑向基核函數(shù)下得到 Rp=0.9958,eRMSEP=0.0057,選擇線性核函數(shù)時,Rp=0.9850,eRMSEP=0.0104;經(jīng)過預(yù)處理后的數(shù)據(jù)在徑向基核函數(shù)下得到 Rp=0.9917,eRMSEP=0.0082,選擇線性核函數(shù)時,Rp=0.9844,eRMSEP=0.0106。
2.2.3 連續(xù)投影算法結(jié)合多元線性回歸(SPA-MLR)
連續(xù)投影算法(SPA)是一種選擇變量的算法,在選擇過程中從某一個波長變量開始,而接下來的循環(huán)則計算沒有被選擇過波長變量上的投影[14]。選擇投影向量中最大的波長點,每一次新選入的波長點和之前選入的波長點之間線性相關(guān)最小。本文中通過SPA選取原始光譜中的特征波長點,利用SPA從360個波長點中選取了27個主要特征波長點。然后將這27個特征波長點用MLR進(jìn)行建模。圖7是利用SPA結(jié)合多元線性回歸算法建模得到的玉米粉中苯甲酸質(zhì)量分?jǐn)?shù)預(yù)測模型散點圖。其中 Rc=0.9897,eRMSEC=0.0085,Rp=0.9896,eRMSEP=0.0090。
本文中采用PLS,LS-SVM和SPA-MLR等方法建立模型,建模前進(jìn)行預(yù)處理,由結(jié)果可知,采用移動平均平滑算法、窗口數(shù)為 5時,效果最佳,其 Rp=0.98151,eRMSEP=0.01125,利用 LS-SVM建模分別從徑向和線性核函數(shù)出發(fā),結(jié)果表明,對原始光譜,在徑向核函數(shù)下得到的模型最佳,得到Rp=0.9958,eRMSEP=0.0057;最后還利用了多元線性回歸進(jìn)行建模,在建模前為了使變量之間的相關(guān)性最小,利用SPA挑選了27個特征波長變量,然后利用這些特征波長變量建立模型,其得到的結(jié)果為 Rp=0.9896,eRMSEP=0.0090。對比這3種建模方法,LS-SVM建模得到最優(yōu)模型,Rp最大,誤差最小,偏最小二乘法模型結(jié)果相對來說最差。
Fig.6 Scatters plots of calibration and prediction results of Benzoic acid content by LS-SVMa—original spectru—moving average smoothing and for size 5
Fig.7 Scatters plots of calibration and prediction results of Benzoic acid content by SPA-MLR
采用THz-TDS法定量分析了玉米粉基質(zhì)中的苯甲酸含量,利用太赫茲時域光譜技術(shù)對玉米粉和苯甲酸混合物在0.5THz~3THz的頻率范圍進(jìn)行建模分析,利用PLS,LS-SVM和SPA-MLR對樣品質(zhì)量分?jǐn)?shù)進(jìn)行定量分析。實驗結(jié)果表明,利用LS-SVM進(jìn)行建模得到最好的預(yù)測結(jié)果,以 eRMSEP=0.0057,Rp=0.9985,得到玉米粉中苯甲酸質(zhì)量分?jǐn)?shù)測定的最優(yōu)LS-SVM模型。本文中通過THz-TDS與化學(xué)計量學(xué)結(jié)合,證明了定量檢測玉米粉基質(zhì)中苯甲酸的可能性,說明THz-TDS可以作為檢測玉米粉中苯甲酸含量的工具。為了更進(jìn)一步,可以用所用的方法擴展到預(yù)測其它物質(zhì)混合物中各種成分的質(zhì)量分?jǐn)?shù)。
根據(jù)我國《食品添加劑使用衛(wèi)生標(biāo)準(zhǔn)》(GB2760-2014)規(guī)定,苯甲酸作為防腐劑使用時,最大用量為0.2g/kg,該實驗在高質(zhì)量分?jǐn)?shù)下達(dá)到了很好的效果,但在低質(zhì)量分?jǐn)?shù)效果很差,目前受實驗設(shè)備光源功率的限制,在國標(biāo)以下很難檢測出來,所以本實驗為探索性實驗,探索太赫茲檢測苯甲酸的可能性。本實驗對玉米粉中苯甲酸質(zhì)量分?jǐn)?shù)為0~0.200做了研究,得到了很好的結(jié)果。目前飛秒激光器的功率通過放大技術(shù)已獲得了很大的提高,但噪聲也會同時增加。因此,需要太赫茲時域光譜系統(tǒng)信噪比的進(jìn)一步提高,以及測量裝置靈敏度的提高相結(jié)合,這樣國家標(biāo)準(zhǔn)以下的檢測有可能得以實現(xiàn)。