孫曉榮, 周子健, 劉翠玲, 付新鑫, 竇 穎
(北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院 食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)
3小麥粉中灰分含量是指經(jīng)高溫灼燒后殘留下的無機(jī)成分占小麥粉的百分比。高溫處理不但耗能費(fèi)時(shí)更會帶來不必要的浪費(fèi)。近幾年,研究人員將近紅外光譜(near infrared,NIR)技術(shù)結(jié)合化學(xué)計(jì)量學(xué)的相關(guān)算法應(yīng)用于小麥粉的品質(zhì)檢測[1]。偏最小二乘(partial least squares,PLS)法是回歸預(yù)測常用的建模方法,但在光譜檢測實(shí)驗(yàn)中存各種因素,會影響PLS模型的準(zhǔn)確性和穩(wěn)定性,引入譜區(qū)優(yōu)化和光譜預(yù)處理格外重要[2,3]。馬世榜等人利用牛肉近紅外光譜結(jié)合遺傳算法(genetic algorithm,GA)建立了其pH值定量模型,結(jié)果表明經(jīng)該優(yōu)化波長后的模型預(yù)測準(zhǔn)確性明顯高于原始光譜所建模型[4],實(shí)驗(yàn)證明光譜預(yù)處理效果明顯,GA具有全局搜索最優(yōu)特點(diǎn),可以應(yīng)用于許多研究領(lǐng)域,并成為譜區(qū)優(yōu)化非常有效的方法之一。
本文對比多種光譜預(yù)處理方法結(jié)合GA建立PLS定量分析實(shí)現(xiàn)模型優(yōu)化,以快速準(zhǔn)確分析小麥粉中灰分含量。
所用130份小麥粉樣本均取自古船面粉廠不同批次以及不同種類的小麥粉產(chǎn)品,待測組分真實(shí)值均來自古船面粉廠依據(jù)傳統(tǒng)國標(biāo)法測得的實(shí)驗(yàn)數(shù)據(jù)。采用德國布魯克(Bruker)公司Vertex 70傅里葉紅外光譜儀采集小麥粉樣本的近紅外光譜。光譜數(shù)據(jù)分析在MATLAB 2014環(huán)境下完成。儀器參數(shù)設(shè)置:分辨率8/cm,樣本掃描次數(shù)64次,背景掃描次數(shù)64次,采集光譜范圍12 000~4 000/cm,光闌設(shè)置6 mm,掃描速度10 kHz。
1.2.1 光譜預(yù)處理作用與方法
引入光譜預(yù)處理可以有效消除近紅外光譜存在固有缺陷,提高模式識別的準(zhǔn)確度。
本實(shí)驗(yàn)研究結(jié)合樣本特性和預(yù)處理方法功能,對比分析最終選擇了5種預(yù)處理方法,分別為矢量歸一化、Savitsky-Golay(SG)卷積平滑法、導(dǎo)數(shù)法、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variable transform,SNV)校正以及多元散射校正(multiplicative scatter correction,MSC)[5,6]。
1.2.2 GA
傳統(tǒng)的優(yōu)化方法[7,8],如相關(guān)系數(shù)法和蒙特卡羅法等,多是建立譜區(qū)和待測組分之間的關(guān)系來篩選波長,這需要研究人員具有很強(qiáng)的化學(xué)素養(yǎng)和相關(guān)經(jīng)驗(yàn),難以實(shí)現(xiàn)自動化檢索;而隨機(jī)優(yōu)化方法[9~11]如粒子群算法,模擬退火算法,GA等,能夠自動檢索復(fù)雜問題,對不同對象自適應(yīng)性的分析并快速找出最優(yōu)解。本文選擇用GA優(yōu)化譜區(qū),避免因化學(xué)專業(yè)知識的欠缺影響模型結(jié)果。
算法過程包括:選擇、交叉、變異,通過迭代的手段,根據(jù)目標(biāo)函數(shù)值留下較優(yōu)變量,去除較差變量,最終實(shí)現(xiàn)特征變量優(yōu)選,算法屬于自適應(yīng)的全局搜索算法,其中最重要的選擇環(huán)節(jié)依據(jù)適應(yīng)度函數(shù),選擇優(yōu)良個(gè)體[13]。
1.2.3 適應(yīng)度函數(shù)
用于區(qū)分個(gè)體優(yōu)劣,提升整體優(yōu)勢[14,15]。可選擇校正模型的相關(guān)系數(shù)R2、校正標(biāo)準(zhǔn)偏差(root mean square error of calibration,RMSEC)或者預(yù)測標(biāo)準(zhǔn)偏差(root mean square error of prediction,RMSEP)。3者均為評價(jià)校正模型的重要參數(shù)。
實(shí)驗(yàn)中,利用OPUS7.0軟件將采集的光譜轉(zhuǎn)換為數(shù)據(jù)點(diǎn)格式以及單一PLS回歸預(yù)測曲線,光譜預(yù)處理+GA結(jié)合PLS由MATLAB 2014軟件完成。
實(shí)驗(yàn)中共130份小麥粉樣本,基于SPXY樣本劃分法選取其中106份樣本作為校正集,24份樣本作為測試集。實(shí)驗(yàn)每隔30 min采集一次背景光譜,并保持室內(nèi)恒溫26 ℃。光譜儀器掃描次數(shù)設(shè)置為64 次,分辨率為 8/cm,采集部分小麥粉樣本近紅外光譜如圖1所示。
圖1 部分小麥粉樣本的近紅外光譜
選用歸一化、導(dǎo)數(shù)、SNV、MSC、SG平滑5種常用光譜預(yù)處理方法,按照一定關(guān)系排列成11種組合,分別對面粉中灰分定量分析模型進(jìn)行光譜處理,旨在最大程度消除與光譜數(shù)據(jù)無關(guān)信息和噪聲,提升校正模型的預(yù)測性能和穩(wěn)健性,通過對結(jié)果對比分析,找出最適合面粉檢測的預(yù)處理方法。模型基于11種預(yù)處理組合分別建立PLS全譜模型,實(shí)驗(yàn)結(jié)果表明,光譜經(jīng)過平滑結(jié)合歸一化和平滑結(jié)合一階導(dǎo)數(shù)預(yù)處理組合優(yōu)化后建模,預(yù)測準(zhǔn)確性和穩(wěn)健性均優(yōu)于原始光譜建立的定量模型。SG平滑分別結(jié)合SNV和MSC預(yù)處理組合準(zhǔn)確性明顯提高,但是模型穩(wěn)健性不足。其余組合所見模型在滿足模型穩(wěn)健性的情況下,預(yù)測準(zhǔn)確性過低,反之,穩(wěn)健性不足。
實(shí)驗(yàn)在建立基于遺傳算法優(yōu)化波長的小麥粉中灰分含量PLS定量模型時(shí),相關(guān)系數(shù)R2和RMSEC隨特征波長數(shù)量變化如圖2所示,模型參數(shù)在特征波長數(shù)量為80時(shí)趨于平穩(wěn)。因此,GA種群規(guī)模設(shè)定為30,最大迭代次數(shù)設(shè)定為150次,提取特征波長數(shù)量為80個(gè),適應(yīng)度函數(shù)選擇RMSEP。
圖2 R2和RMSEC隨特征波長數(shù)量變化
基于光譜預(yù)處理結(jié)合遺傳算法篩選波長,建立關(guān)于小麥粉灰分定量分析模型,實(shí)驗(yàn)挑選部分預(yù)處理方法與GA結(jié)合優(yōu)化后模型,參數(shù)結(jié)果如表1所示。
在模型評價(jià)方面,除使用相關(guān)系數(shù)R2和預(yù)測標(biāo)準(zhǔn)偏差RMSEP來評價(jià)模型預(yù)測準(zhǔn)確性外,還引入穩(wěn)健性參數(shù)RMSEP/RMSEC和剩余預(yù)測偏差(residual prediction deviation,RPD)2個(gè)評價(jià)指標(biāo)。模型穩(wěn)健性是描述模型容許光譜變動的包容能力,即模型抗干擾能力。國際谷物化學(xué)組織(Inter-national Cereal Chemists,ICC)規(guī)定在正常容變范圍之內(nèi)RMSEP/RMSEC應(yīng)小于1.2,若穩(wěn)健性參數(shù)大于1.2則說明模型穩(wěn)健性不足;另外,使用RPD對預(yù)測精度進(jìn)行進(jìn)一步評價(jià),即RPD=SD/RMSEP(SD為驗(yàn)證集標(biāo)準(zhǔn)偏差)。如果RPD≥3,說明預(yù)測效果良好,建立的定量分析模型可用于實(shí)際檢測;如果2.5 表1 近紅外光譜經(jīng)預(yù)處理結(jié)合遺傳算法優(yōu)化模型結(jié)果(灰分) 由實(shí)驗(yàn)結(jié)果得出:灰分含量全譜PLS定量模型相關(guān)系數(shù)R2為70.31,RMSEC為0.077 5,RMSEP為0.091 4,RPD為1.345,RMSEP/RMSEC為1.18,模型經(jīng)遺傳算法篩選特征波長后,預(yù)測準(zhǔn)確性和穩(wěn)健性均有大幅提高,結(jié)合適合的光譜預(yù)處理方法后,模型得到了更完整的優(yōu)化。綜合模型的準(zhǔn)確性與穩(wěn)健性參數(shù),SG平滑(25)點(diǎn)+SNV結(jié)合GA優(yōu)化模型結(jié)果最為理想,相關(guān)系數(shù)R2為97.46,RMSEC為0.022 6,RMSEP為0.021 3,RPD達(dá)到了5.781 7,模型穩(wěn)健性良好。 近紅外光譜經(jīng)SG平滑(25)+SNV預(yù)處理后譜圖如圖3所示。 圖3 SG平滑(25)+SNV法預(yù)處理后小麥粉的近紅外光譜 SG平滑(25)+SNV結(jié)合GA優(yōu)化的灰分PLS校正集定量分析模型如圖4所示。 圖4 SG平滑(25)+SNV+GA的灰分PLS校正集定量模型 SG平滑(25)+SNV結(jié)合GA優(yōu)化的灰分PLS驗(yàn)證集定量分析模型如圖5所示。 圖5 SG平滑(25)+SNV+GA的灰分PLS驗(yàn)證集定量模型 在不同光譜預(yù)處理組合方式與波長篩選方法做了大量實(shí)驗(yàn),旨在優(yōu)化小麥粉近紅外光譜定量分析模型,使模型具備良好的預(yù)測準(zhǔn)確性與穩(wěn)健性。在實(shí)驗(yàn)過程中探討了11種光譜預(yù)處理組合方式對模型評價(jià)參數(shù)的影響,以及不同預(yù)處理組合結(jié)合GA篩選波長對優(yōu)化模型評價(jià)參數(shù)的影響。在眾多預(yù)處理組合中,SG平滑+SNV與GA相結(jié)合后模型的預(yù)測準(zhǔn)確性最好,且RPD結(jié)果較好,屬于可接受范圍內(nèi),表明模型穩(wěn)健性良好。利用該模型可以應(yīng)用于小麥粉品質(zhì)快速檢測的生產(chǎn)活動中,減少生產(chǎn)工廠的人力投入,提升企業(yè)經(jīng)濟(jì)效益,降低食品監(jiān)管部門的工作強(qiáng)度。 參考文獻(xiàn): [1] 劉翠玲,吳勝男,孫曉榮,等.基于近紅外光譜的面粉灰分含量快速檢測方法[J].農(nóng)機(jī)化研究,2013,35(4):144-147. [2] 周 揚(yáng),戴曙光,呂 進(jìn),等.光譜預(yù)處理對近紅外光譜快速檢測黃酒酒精度的影響[J].光電工程,2011,38(4):54-58. [3] 褚小立,袁洪福,陸婉珍.近紅外分析中光譜預(yù)處理及波長選擇方法進(jìn)展與應(yīng)用[J].化學(xué)進(jìn)展,2004,16(4):528-542. [4] 吳靜珠,劉 倩,陳 巖,等.基于近紅外與高光譜技術(shù)的小麥種子多指標(biāo)檢測方法[J].傳感器與微系統(tǒng),2016,35(7):42-44. [5] 馬世榜,湯修映,徐 楊,等.可見/近紅外光譜結(jié)合遺傳算法無損檢測牛肉pH值[J].農(nóng)業(yè)工程學(xué)報(bào),2012,28(18):263-268. [6] 張 欣,單 楊,李水芳.基于多元散射校正和偏最小二乘(MSC/PLS)的傅里葉變換近紅外光譜檢測蜂蜜中還原糖[J].安全與檢測,2009,25(6):109-112. [7] 彭云發(fā),詹 映,彭海根,等.用遺傳算法提取南疆紅棗總糖的近紅外光譜特征波長[J].食品工業(yè)科技,2015,36(3):303-307. [8] 張國平.食品機(jī)械平面四桿機(jī)構(gòu)的遺傳算法優(yōu)化設(shè)計(jì)[J].食品與機(jī)械,2010,26(3):117-144. [9] 張金權(quán),李 榕,溫 俊,等.基于近紅外TOF傳感器的姿勢識別研究[J].傳感器與微系統(tǒng),2015,34(7):33-36. [10] 石吉勇,殷曉平,鄒小波,等.基于模擬退火波長優(yōu)化的草莓堅(jiān)實(shí)度近紅外光譜檢測[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2010,41(9):99-103. [11] 谷筱玉,徐可欣,汪 曣.波長選擇算法在近紅外光譜法中藥有效成分測量中的應(yīng)用[J].光譜學(xué)與光譜分析,2006,26(9):1618-1620. [12] 林 萍,陳永明.利用可見近紅外光譜技術(shù)快速鑒別大米品種[J].江蘇農(nóng)業(yè)科學(xué),2014,43(12):320-322. [13] 褚小立.化學(xué)計(jì)量學(xué)方法與分子光譜分析技術(shù)[M].北京:化學(xué)工業(yè)出版社,2011:83-84. [14] Zou X B,Zhao J W.Variables selection methods in near-infrared spectroscopy[J].Analytica Chimica Acta,2010,667(1/2):14-23. [15] 徐承愛,林 偉 ,肖 紅.一種基于加權(quán)海明距離的自適應(yīng)遺傳算法[J].華南師范大學(xué)學(xué)報(bào),2015,47(6):121-127. [16] 劉 瑩,胡云龍.基于 ARM9 的近紅外山茶油無損檢測儀研究[J].傳感器與微系統(tǒng),2013,32(4):72-75.3 結(jié) 論