彭云發(fā),詹 映,彭海根,劉 飛,羅華平,2,*
(1.塔里木大學(xué)機(jī)械電氣化工程學(xué)院,新疆阿拉爾 843300;2.新疆維吾爾自治區(qū)普通高等學(xué)校現(xiàn)代農(nóng)業(yè)工程重點(diǎn)實(shí)驗(yàn)室,新疆阿拉爾 843300)
用遺傳算法提取南疆紅棗總糖的近紅外光譜特征波長(zhǎng)
彭云發(fā)1,詹 映1,彭海根1,劉 飛1,羅華平1,2,*
(1.塔里木大學(xué)機(jī)械電氣化工程學(xué)院,新疆阿拉爾 843300;2.新疆維吾爾自治區(qū)普通高等學(xué)?,F(xiàn)代農(nóng)業(yè)工程重點(diǎn)實(shí)驗(yàn)室,新疆阿拉爾 843300)
本研究嘗試?yán)媒t外光譜技術(shù)測(cè)量紅棗的總糖含量,針對(duì)采用偏最小二乘(PLS)法建立近紅外光譜預(yù)測(cè)模型時(shí)波長(zhǎng)篩選問(wèn)題,提出用聯(lián)合區(qū)間偏最小二乘法(siPLS)與遺傳算法(GA)相結(jié)合的方法遺傳聯(lián)合區(qū)間偏最小二乘法(GA-siPLS)來(lái)提取近紅外光譜特征區(qū)域和特征波長(zhǎng),提高模型預(yù)測(cè)精度的方法。結(jié)果表明:將全譜等分成20個(gè)子區(qū)間,用聯(lián)合區(qū)間偏最小二乘法優(yōu)選出4個(gè)特征子區(qū)間,在這4個(gè)子區(qū)間的基礎(chǔ)上再用遺傳偏最小二乘法繼續(xù)篩選出12個(gè)特征波長(zhǎng)。用12個(gè)特征波長(zhǎng)建立的偏最小二成模型精度要好于全譜建立的模型,其主因子數(shù)減少了4個(gè),預(yù)測(cè)集標(biāo)準(zhǔn)偏差(RMSECP)減少了25%,預(yù)測(cè)相關(guān)系數(shù)(RP)提高了5%。該方法選取的波長(zhǎng)變量建立的校正模型,不僅使模型簡(jiǎn)潔、優(yōu)化,而且增強(qiáng)了模型的預(yù)測(cè)能力。
近紅外光譜,特征波長(zhǎng),聯(lián)合區(qū)間偏最小二乘法,遺傳算法,紅棗
紅棗營(yíng)養(yǎng)十分豐富,是我國(guó)歷來(lái)推崇的滋補(bǔ)食品。北方民間有“日食三個(gè)棗,人生不易老”,“五谷加紅棗,勝過(guò)靈芝草”的諺語(yǔ),高度贊揚(yáng)了紅棗的食補(bǔ)功效[1]。糖度是紅棗內(nèi)部品質(zhì)的一個(gè)重要指標(biāo),而且按照目前國(guó)際市場(chǎng)慣例,標(biāo)識(shí)出糖度的水果可以獲得更高銷售價(jià)格[2],所以對(duì)紅棗糖度進(jìn)行檢測(cè)很有必要。對(duì)紅棗糖度進(jìn)行檢測(cè)不僅可以增加我國(guó)的紅棗出口數(shù)量,而且通過(guò)對(duì)紅棗進(jìn)行分級(jí)管理,也可以完善對(duì)紅棗資源的綜合利用,產(chǎn)生顯著的經(jīng)濟(jì)效益及社會(huì)效益。
紅棗中的總糖含量存在形式已經(jīng)不是簡(jiǎn)單的單糖和多糖,特征譜區(qū)也就不是某種單糖或多糖的特征譜區(qū),所以在測(cè)定時(shí)確定紅棗總糖的特征譜區(qū)是比較困難的。遺傳算法(GA)最初是由Holland于1975年提出的,它借鑒生物界自然選擇和遺傳機(jī)制,利用選擇、交換和突變等算法的操作,隨著不斷的遺傳迭代,使目標(biāo)函數(shù)值較優(yōu)的變量被保留,較差的變量被淘汰,最終達(dá)到最優(yōu)結(jié)果。1998年R.Leardi[3]提出一種遺傳偏最小二乘法(GA-PLS)來(lái)進(jìn)行光譜特征波長(zhǎng)的篩選,并在短波近紅外光譜中得到成功的應(yīng)用,但參與該方法的光譜點(diǎn)數(shù)不能太多,否則算法很難收斂。2000年Lars N rgaard[4]提出一種聯(lián)合區(qū)間偏最小二乘法(siPLS)來(lái)進(jìn)行光譜區(qū)間的篩選,該方法只能篩選特征區(qū)間,不能篩選出單個(gè)特征波長(zhǎng)。通過(guò)特定的方法篩選特征變量一方面可以簡(jiǎn)化模型,一方面剔除不相關(guān)或非線性變量,得到預(yù)測(cè)能力更強(qiáng)的校正模型。本研究目的是提取紅棗紅糖的近紅外特征波長(zhǎng),先用聯(lián)合區(qū)間偏最小二乘法在整個(gè)譜區(qū)中選擇紅棗的特征譜區(qū),然后再對(duì)該特征譜區(qū)進(jìn)行遺傳偏最小二乘法篩選出紅棗總糖的光譜特征波長(zhǎng),用該方法建立的偏最小二乘模型簡(jiǎn)潔、穩(wěn)定性好并且預(yù)測(cè)能力強(qiáng)。
1.1 材料與儀器
2013年10月采集于新疆生產(chǎn)建設(shè)兵團(tuán)阿拉爾市10團(tuán)處于白熟期的灰棗,選出沒(méi)有損傷、傷疤的120顆紅棗。對(duì)其依次進(jìn)行編號(hào)及去除灰塵等處理,沿著樣品赤道部位(間隔約 120°)標(biāo)記 3 點(diǎn)作為數(shù)據(jù)采集點(diǎn),然后放入冷庫(kù)(溫度2~10℃)中保存。
采用美國(guó)賽默飛世爾科技生產(chǎn)的Antaris Ⅱ FT-NIR型光譜儀采集紅棗近紅外光譜,以儀器內(nèi)部空氣為背景,測(cè)量范圍4000~10000cm-1,采樣點(diǎn)數(shù)為1557點(diǎn),每張光譜掃描次數(shù)32次,分辨率為8cm-1,儀器使用InGaAs檢測(cè)器,化學(xué)計(jì)量學(xué)分析軟件為儀器自帶的TQ軟件和MATLAB7.0(美國(guó)Mathworks)。
1.2 光譜采集
光譜采集條件:光譜采集前,先將紅棗從冷庫(kù)中取出放入室內(nèi)12h,目的是使紅棗溫度與室內(nèi)溫度相同,室內(nèi)溫度在23~26℃之間,相對(duì)濕度25%~30%;測(cè)樣方式:近紅外光譜儀開機(jī)預(yù)熱30min后,分別對(duì)紅棗樣本赤道部位每隔120℃標(biāo)記的3點(diǎn)采集漫反射光譜,共采集三次,取平均光譜。共采集120張紅棗近紅外原始光譜圖。
1.3 紅棗樣本總糖測(cè)定方法
1.3.1 樣品處理 紅棗總糖的測(cè)定方法采用直接滴定法,按國(guó)標(biāo)GB/T5009.7-2008執(zhí)行。取標(biāo)記部位的紅棗果肉去皮,準(zhǔn)確稱取2.5~5g研磨并置于100mL容量瓶中,加50mL水,搖勻,邊搖邊慢慢加入5mL乙酸鋅溶液和5mL亞鐵氰化鉀溶液,加水至刻度,搖勻,靜置30min,用干燥濾紙過(guò)濾,棄去初濾液,收集濾液備用。
1.3.2 測(cè)定 吸取處理后的樣品溶液50mL于100mL容量瓶中,加入5mL 6mol/L鹽酸溶液,在68~70℃水浴中加熱15min,冷卻后加入2滴甲基紅指示劑,用20%氫氧化鈉溶液中和至中性,加水至刻度,搖勻。吸取5mL費(fèi)林試劑甲液和5mL費(fèi)林試劑乙液,置于150mL錐形瓶中,加水10mL,加入玻璃珠2粒,控制在2min內(nèi)加熱至沸,趁沸以快速?gòu)牡味ü苤械渭颖阮A(yù)測(cè)體積少1mL的樣品溶液,然后趁沸以每?jī)擅?滴的速度滴至終點(diǎn)。記錄樣品溶液消耗體積,同時(shí)平行測(cè)定三份,取其平均值。
1.3.3 計(jì)算 計(jì)算紅棗樣品中的總糖含量:
總糖含量(%)=m×100/W×(50/V1)×(V2/100)×1000
式中:m為10mL費(fèi)林試液相當(dāng)于葡萄糖量(mg);W為紅棗樣品質(zhì)量(g);V1為紅棗樣品處理液的總體積(mL);V2為測(cè)定總糖含量取用水解液的體積(mL)。
1.4 算法簡(jiǎn)介
N?rgaard等提出在光譜數(shù)據(jù)中運(yùn)用局部區(qū)域建立回歸模型的方法,然后把它稱為間隔偏最小二乘法(iPLS)[4]。iPLS的目的是把光譜分割成一些較小等距子區(qū)間,然后在每個(gè)子區(qū)間建立偏最小二乘模型。它表明選擇最優(yōu)的區(qū)間能帶來(lái)精確的預(yù)測(cè)模型。然后,在某些情況下,如果僅選擇一個(gè)光譜區(qū)間來(lái)建立校正模型,有些有用的信息可能被遺棄,并且也可能會(huì)降低模型的性能。所以,N?rgaard提出其他的方法來(lái)選擇組合區(qū)間建立PLS模型,叫做聯(lián)合區(qū)間偏最小二乘模型(siPLS),它將同一次區(qū)間劃分中精度較高的幾個(gè)局部模型所在的子區(qū)間聯(lián)合起來(lái),共同預(yù)測(cè)待測(cè)樣本品質(zhì)指標(biāo)。雖然該方法相對(duì)于iPLS或多或少的有所改進(jìn),但是,它也存在缺點(diǎn)。正如我們所知,這些方法只用于選擇有效的光譜區(qū)間;盡管在一些小區(qū)間里,也仍然有一些共線變量。因此,必需從這些最優(yōu)子區(qū)間中選擇有用的變量。
遺傳算法[3]是一種新近發(fā)展起來(lái)的搜索最優(yōu)解的方法。它模擬生命進(jìn)化機(jī)制,也就是說(shuō),模擬了自然選擇和遺傳進(jìn)化中發(fā)生的繁殖、交配和突變現(xiàn)象,從任意一個(gè)初始群體出發(fā),通過(guò)隨機(jī)選擇、交叉和變異操作,產(chǎn)生一群新的更適應(yīng)環(huán)境的個(gè)體,使群體進(jìn)化到搜索空間中越來(lái)越好的區(qū)域。這樣一代一代不斷繁殖、進(jìn)化,最后收斂到一群最適應(yīng)環(huán)境的個(gè)體上求得問(wèn)題的最優(yōu)解。遺傳算法的實(shí)現(xiàn)主要包括5個(gè)基本要素:參數(shù)編碼;群體的初始化;使用度函數(shù)的設(shè)計(jì);收斂判據(jù)和變量的選取等。具體的遺傳算法實(shí)現(xiàn)流程框圖參見(jiàn)圖1。
圖1 遺傳算法實(shí)現(xiàn)流程框圖Fig.1 Flow diagram of the genetic algorithm
2.1 校正模型
在采集原始光譜時(shí)為了消除系統(tǒng)、環(huán)境和樣品背景等對(duì)近紅外漫反射的影響,經(jīng)過(guò)多次測(cè)試與比較,對(duì)原始光譜進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,圖2為120粒紅棗近紅外光譜圖和標(biāo)準(zhǔn)化后的光譜。
圖2 120顆紅棗近紅外光譜(a)和 標(biāo)準(zhǔn)化后處理的光譜(b)Fig. 2 NIR original spectra of one hundred(a)and twenty jujubes NIR spectra after standardization(b)
將120顆紅棗樣本隨機(jī)分成兩組,一組是校正集用來(lái)建立校正模型,另一組是驗(yàn)證集用來(lái)測(cè)試模型的穩(wěn)健性。為了避免兩個(gè)子集劃分出現(xiàn)偏差,按照如下方式劃分:所有樣品是通過(guò)他們各自的Y值(總糖)而排列的。為了劃分校正集與驗(yàn)證集光譜,每4個(gè)樣品中有一個(gè)光譜被選人驗(yàn)證集。因此,校正集有90個(gè)光譜;驗(yàn)證集有30個(gè)光譜。如表1中所示,校正集y值范圍大于驗(yàn)證集的范圍。因此,樣品分布在校正集和驗(yàn)證集是適當(dāng)?shù)?。圖3所示的是校正集樣品總糖含量分布圖,該圖呈高斯分布說(shuō)明校正集樣品選擇合理。
表1 紅棗總糖含量實(shí)測(cè)值統(tǒng)計(jì)表Table 1 Statistics of sugar content of jujubes measured by the standard methods
圖3 校正集樣品總糖含量分布圖Fig.3 Total sugar content distribution of Calibration set
在校正模型中,采用留一交互驗(yàn)證法(leave-one-sample-out cross-validation)來(lái)建立校正模型。留一交互驗(yàn)證法就是:每次從樣本集中取出一個(gè)樣本,用余下的樣本來(lái)建立模型,用建好的模型來(lái)預(yù)測(cè)之前取出在這個(gè)樣本,直到樣本集中每個(gè)樣本都被取出過(guò)一次。
2.2 iPLS模型結(jié)果
圖4 各區(qū)間模型的RMSECV值與全譜模型的 RMSECV值比較圖Fig.4 Comparison of interval model’s and full spectrum’s RMSECV注:虛線表示全譜模型的RMSECV值, 曲線是一個(gè)紅棗光譜圖,斜體字為各區(qū)間模型的主成分?jǐn)?shù)。
將圖1中光譜數(shù)據(jù)(范圍4000~10000cm-1)共1557個(gè)波數(shù)點(diǎn)等分為20個(gè)區(qū)間,第1~17為78個(gè)波數(shù)點(diǎn),第18~20為77個(gè)波數(shù)點(diǎn)。用間隔偏最小二乘法(iPLS)進(jìn)行處理,處理結(jié)果如圖4所示。從圖4中可以看第5、8和12個(gè)區(qū)間上的偏最小二乘法模型的RMSECV值比全譜模型的RMSECV值小,這是因?yàn)槿V1557個(gè)變量用來(lái)建立校正模型,這1557個(gè)變量有很多是與紅棗總糖不相關(guān)的,它們叫做“無(wú)信息變量”。另外,近紅外光譜區(qū)域的共線變量,它們稱為“冗余變量”。如果模型中含有“無(wú)信息變量”和“冗余變量”,會(huì)降低模型的預(yù)測(cè)能力,因此并不是用于建模的光譜數(shù)據(jù)越多越好。
2.3 聯(lián)合區(qū)間偏最小二乘法選取特征光譜區(qū)間
利用siPLS從20個(gè)區(qū)間中選取特征光譜區(qū)域組合,在數(shù)據(jù)處理過(guò)程中,嘗試分別聯(lián)合2、3和4個(gè)子區(qū)間建立紅棗總糖校正模型,處理結(jié)果如表2所示,從表中可以看出選擇第5、7、9和10區(qū)間組合的聯(lián)合區(qū)間建立的紅棗總糖的偏最小二乘模型,得到最小的RMSECV值1.554,該4個(gè)子區(qū)間所對(duì)應(yīng)的波數(shù)分別為5203~5499.99,5804.69~6101.67,6406.37~6703.35,6707.21~7004.19cm-1,如圖5所示。
表2 選擇不同子區(qū)間數(shù)的 聯(lián)合區(qū)間偏最小二乘分析模型結(jié)果Table 2 Choose the number of different subinterval joint interval partial least squares analysis model results
圖5 si-PLS選擇的最佳子區(qū)間Fig.5 Spectral region selection accomplished by si-PLS
2.4 遺傳偏最小二乘法選擇特征波長(zhǎng)
用遺傳偏最小二乘法GA-PLS對(duì)聯(lián)合區(qū)間偏最小二乘法所選出來(lái)的4個(gè)區(qū)間內(nèi)的波數(shù)變量進(jìn)一步篩選,遺傳算法的控制參數(shù)設(shè)定為:初始種群100,交叉概率Pc=0.8,變異概率Pm=0.01,遺傳迭代次數(shù)為100,迭代終止后將被選用頻次最多的波數(shù)點(diǎn)按頻次高低順序逐一加入PLS模型中,以最小的交互驗(yàn)證均方根誤差(RMSECV)值確定出最佳的建模變量。為了防止算法運(yùn)行過(guò)程中隨即性對(duì)結(jié)果的影響,研究共進(jìn)行5次運(yùn)算,最后挑選出其中性能最好的模型所選用的頻率變量作為最佳變量,表3為5次運(yùn)算GA-PLS所選用的波長(zhǎng)變量的數(shù)目及RMSECV值,可以看出12個(gè)波長(zhǎng)點(diǎn)數(shù)被使用的時(shí),可獲得最低的RMSECV值1.4609。圖6(a)顯示了第3次運(yùn)算過(guò)程中各頻率被選用的頻次,從該圖中可以看出,被選用的頻次較多的變量主要集中在siPLS變量區(qū)間的中間區(qū)域,即在100~200(對(duì)應(yīng)的波數(shù)為5885.68~6572.21cm-1)之間,特別是變量數(shù)在168(波數(shù)6448.79cm-1)左右的幾個(gè)變量被選用的頻次最高,這說(shuō)明這幾個(gè)變量與紅棗總糖信息之間有較高的相關(guān)性,(b)圖為選用的變量數(shù)對(duì)用的RMSECV值,從圖中可以看出選用12個(gè)變量建立的RMSECV值最小。
表3 5次GA-PLS運(yùn)算選用的變量和最低RMSECV值Table 3 The statistical result of 5 calculations by GAPLS
圖6 各變量被選用的頻次圖(a)和 選用的變量數(shù)對(duì)應(yīng)的RMSECV值(b)Fig.6 The frequency of selections original wavelengths after dynamic GA-PLS(3 runs)(a)and RMSECV corresponds selections variables(b)
2.5 建模比較
為了比較聯(lián)合區(qū)間偏最小二乘法和遺傳偏最小二乘法的處理效果,采用TQ軟件來(lái)建立校正模型。將所建的模型與全譜建的模型進(jìn)行比較,結(jié)果如表4所示。比較其他的PLS模型,GA-siPLS模型展現(xiàn)最優(yōu)的結(jié)果。這種現(xiàn)象可以用化學(xué)計(jì)量學(xué)和光譜學(xué)解釋。
關(guān)于PLS模型,全譜1557個(gè)變量用來(lái)建立校正模型。這1557個(gè)變量有很多是與紅棗總糖不相關(guān)的,它們叫做“無(wú)信息變量”。另外,近紅外光譜區(qū)域的共線變量,它們稱為“冗余變量”。如果模型中含有“無(wú)信息變量”和“冗余變量”,會(huì)增加PLS主因子數(shù)。例如,PLS模型中的9個(gè)主因子數(shù),它多余其他的模型主因子數(shù)。如此多的主因子數(shù)能夠解釋校正集與驗(yàn)證集不同的結(jié)果。太多的PLS主因子數(shù)會(huì)導(dǎo)致模型過(guò)擬合。當(dāng)通過(guò)獨(dú)立的樣品來(lái)測(cè)試時(shí),過(guò)擬合模型會(huì)給出不好的預(yù)測(cè)結(jié)果。
表4 選用不同處理方法后的偏最小二乘模型結(jié)果Table 4 Results of PLS by different methods
siPLS模型,是通過(guò)Norgaard的目的聯(lián)合幾個(gè)光譜區(qū)間建立的PLS模型。siPLS模型要好于PLS模型,因?yàn)樾UP椭械囊恍盁o(wú)信息變量”和“冗余變量”被剔除了。本研究中siPLS模型包含312個(gè)變量,在變量數(shù)目上siPLS遠(yuǎn)少于PLS模型的變量數(shù)(1557個(gè)變量)。siPLS(主因子8)模型比PLS模型(主因子9)簡(jiǎn)潔。
siPLS模型有較好的性能相對(duì)于PLS模型,但是與GA-siPLS相比模型性能要稍微低點(diǎn)。在兩個(gè)相鄰波段或者一個(gè)小的區(qū)間仍有共線變量。這些共線變量會(huì)降低模型的預(yù)測(cè)能力。本研究中,GA-siPLS模型先后分兩步建立:首先,從20個(gè)光譜區(qū)間中選擇4個(gè)子區(qū)間,并且選擇的變量為312個(gè);第二,從312個(gè)變量中選擇12個(gè)變量。GA-siPLS模型相比于siPLS獲得更好的性能,因?yàn)樗梢员苊鈨蓚€(gè)相鄰波段的共線變量。
用聯(lián)合區(qū)間偏最小二乘法和遺傳算法對(duì)南疆紅棗總糖特征區(qū)域和特征波長(zhǎng)的提取,結(jié)果表明,用其方法建立的偏最小二乘法模型與全譜模型相比,不僅提高了模型的預(yù)測(cè)精度,而且還大大減少了建模所用的波長(zhǎng)點(diǎn)數(shù),使模型得到簡(jiǎn)化,減少建模運(yùn)算時(shí)間,穩(wěn)定性好,所選取的變量點(diǎn)數(shù)能有效的反應(yīng)紅棗總糖的信息,建立的模型魯棒性強(qiáng)。該結(jié)果可為設(shè)計(jì)濾光片式或激光式紅棗糖度快速檢測(cè)儀提供一種客觀的特征波長(zhǎng)的選擇方法。
在光譜結(jié)合多元校正的方法中,傳統(tǒng)觀點(diǎn)認(rèn)為多元校正方法(如PLS)具有較強(qiáng)的抗干擾能力,可全波長(zhǎng)參加多元校正模型的建立。隨著對(duì)PLS等方法的深入研究的應(yīng)用,通過(guò)特定方法篩選特征波長(zhǎng)或波長(zhǎng)區(qū)間有可能得到更好的定量校正模型。波長(zhǎng)選擇一方面可以簡(jiǎn)化模型,更主要的是由于不相關(guān)或非線性變量的剔除,可以得到預(yù)測(cè)能力強(qiáng)、穩(wěn)健性好的校正模型。本文結(jié)果表明通過(guò)遺傳算法選擇的波長(zhǎng)建立的PLS模型比全譜建立的模型預(yù)測(cè)能力強(qiáng)、穩(wěn)健性好,選擇的12個(gè)波長(zhǎng)點(diǎn)與紅棗總糖密切相關(guān)。遺傳算法具有全局最優(yōu)、易實(shí)現(xiàn)等特點(diǎn),成為目前較為常用且非常有效的一種波長(zhǎng)選擇方法。
[1]郭裕新,單公華.中國(guó)棗[M].上海:上??茖W(xué)技術(shù)出版社,2010.1-3.
[2]褚小立.化學(xué)計(jì)量學(xué)方法與分子光譜分析技術(shù)[M].北京:化學(xué)工業(yè)出版社,2011.293-295.
[3]Leardi R,Lupiáez A,González. Genetic algorithms applied to feature selection in PLS regression:how and when to use them[J]. Chemometrics and Intelligent Laboratory Systems,1998,41(2):195-207.
[4]Norgaard L,Saudland A,Wagner J,etal.Interval Partial Least-Squares Regress-ion(iPLS);a Comparative Chemometric Study with an Example form near-infrared Spectroscopy[J].Applied Spectroscope,2000,54(3):413-419.
[5]彭云發(fā),黃磊,羅華平. 南疆紅棗靜態(tài)圖像采集分級(jí)方法研究[J]. 農(nóng)機(jī)化研究,2014(3):28-31.
[6]王加華,潘璐,孫謙,等. 遺傳算法結(jié)合偏最小二乘法無(wú)損評(píng)價(jià)西洋梨糖度[J]. 光譜學(xué)與光譜分析,2009(3):678-681.
[7]褚小立,袁洪福,王艷斌,等. 遺傳算法用于偏最小二乘方法建模中的變量篩選[J]. 分析化學(xué),2001(4):437-442.
[8]鄒小波,趙杰文. 用遺傳算法快速提取近紅外光譜特征區(qū)域和特征波長(zhǎng)[J]. 光學(xué)學(xué)報(bào),2007(7):1316-1321.
[9]朱向榮,李娜,史新元,等. 近紅外光譜與組合的間隔偏最小二乘法測(cè)定清開靈四混液中總氮和梔子苷的含量[J]. 高等學(xué)?;瘜W(xué)學(xué)報(bào),2008(5):906-911.
[10]羅華平,盧啟鵬. 近紅外拓?fù)浞椒ㄔ谀辖t棗品質(zhì)分析中的應(yīng)用[J]. 光譜學(xué)與光譜分析,2012(3):655-659.
[11]羅華平,盧啟鵬,丁海泉,等. 南疆紅棗品質(zhì)近紅外光譜在線模型參數(shù)的實(shí)驗(yàn)研究[J]. 光譜學(xué)與光譜分析,2012(5):1225-1229.
[12]陳斌,王豪,林松,等. 基于相關(guān)系數(shù)法與遺傳算法的啤酒酒精度近紅外光譜分析[J]. 農(nóng)業(yè)工程學(xué)報(bào),2005(7):99-102.
[13]彭云發(fā),彭海根,詹映,等.近紅外光譜對(duì)南疆紅棗水分無(wú)損檢測(cè)的研究[J]. 食品科技,2013(11):260-263.
[14]張楠,程玉來(lái),李東華,等. 近紅外透射光譜測(cè)定水晶梨糖度的初步研究[J]. 食品工業(yè)科技,2007(3):215-216+228.
Analysis of near infrared spectroscopy ofjujube sugar content by genetic algorithms
PENG Yun-fa1,ZHAN Ying1,PENG Hai-gen1,LIU Fei1,LUO Hua-ping1,2,*
(1.School of Mechanical and Electrical Engineering,Tarim University,Alar 843300,China;2.The Key Laboratory of Colleges & Universities under the Department ofEducation of Xinjiang Uygur Autonomous Region,Alar 843300,China)
This study was conducted to attempt to measure the total sugar content of jujube(Ziziphusjujubacv. Huizao)using near-infrared spectroscopy,the information can be abstracted by partial least-square regression(PLS). In order to select wavelengths of near infrared spectroscopy in the prediction model of partial least squares regression of jujube sugar content detection,correlation coefficients and genetic algorithms and interval partial least squares(GA-siPLS)were used to select wavelength from near infrared spectroscopy in partial least squares regression model. The spectra were divided into twenty intervals,among which four subsets were selected by GA-siPLS to characterize the net signals of jujubes’ saccharinity. Then twelve absorbance values(A)at their characteristic wavelengths were screened out. It showed that the model developed by selecting twelve wavelengths was better than that of full spectrum.the principal factor number reduced by 4 and the root mean square error of prediction of prediction set reduced by 25%,while correlation coefficient of prediction improved 5%. The results showed that this wavelengths selection method for PLS modeling not only simplified and optimized calibration model but also increased the prediction ability of calibration model. Therefore,genetic algorithms are effective and feasible methods applied in developing mutlivariate calibration model based on partial least squares regression.
Near Infrared Spectroscopy(NIR);characteristic wavelength;interval partial least squares;Genetic Algorithms;Jujube
2014-03-04
彭云發(fā)(1984-),男,碩士生,研究方向:農(nóng)產(chǎn)品品質(zhì)近紅外光譜檢測(cè)技術(shù)研究。
*通訊作者:羅華平(1973-),男,碩士,教授,研究方向:農(nóng)產(chǎn)品品質(zhì)無(wú)損檢測(cè)技術(shù)的研究。
國(guó)家自然基金項(xiàng)目資助(10964009和11164023)。
TS255.7
A
1002-0306(2015)03-0303-05
10.13386/j.issn1002-0306.2015.03.055