王立琦 崔 月 張 歡 劉 飛 李貴濱 葛慧芳 于殿宇
(哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院1,哈爾濱 150028)(東北農(nóng)業(yè)大學(xué)食品學(xué)院2,哈爾濱 150030)
基于SVM的大豆油脂色澤近紅外光譜分析
王立琦1崔 月1張 歡2劉 飛2李貴濱1葛慧芳1于殿宇2
(哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院1,哈爾濱 150028)(東北農(nóng)業(yè)大學(xué)食品學(xué)院2,哈爾濱 150030)
針對(duì)羅維朋比色計(jì)在油脂色澤測(cè)定中存在的問(wèn)題,提出了一種基于支持向量機(jī)(SVM)的大豆油脂色澤近紅外光譜分析方法。首先采用C-SVM對(duì)3種不同羅維朋黃值的大豆油脂進(jìn)行模式識(shí)別,設(shè)計(jì)出適合油脂色澤近紅外光譜識(shí)別的SVM分類(lèi)器,識(shí)別正確率達(dá)到100%。然后利用ε-SVR對(duì)不同羅維朋黃值的大豆油脂近紅外光譜數(shù)據(jù)與羅維朋紅值進(jìn)行回歸,分別建立了不同級(jí)別大豆油脂色澤的SVM校正模型,預(yù)測(cè)誤差均在0.2個(gè)羅維朋單位以?xún)?nèi)。研究表明,利用近紅外光譜技術(shù)實(shí)現(xiàn)油脂色澤的定性定量分析是可行的,為進(jìn)一步實(shí)現(xiàn)油脂色澤在線(xiàn)監(jiān)測(cè)和調(diào)控提供參考。
近紅外光譜 油脂色澤 支持向量機(jī)
色澤是植物油脂的重要質(zhì)量指標(biāo)之一,油脂色澤的深淺,主要取決于油料所含脂溶性色素的種類(lèi)及含量、油料籽品質(zhì)的好壞、加工方法、精煉程度和油脂貯藏過(guò)程中的變化等。一般來(lái)說(shuō),油脂精煉程度越高,顏色越淡,而油料品質(zhì)劣變和油脂酸敗會(huì)導(dǎo)致油色變深。所以,測(cè)定油脂色澤對(duì)改善油脂加工工藝條件和評(píng)定油脂品質(zhì)具有重要意義。
常用的油脂色澤檢測(cè)方法有目視法、重鉻酸鉀法和羅維朋比色計(jì)法等。我國(guó)國(guó)家標(biāo)準(zhǔn)規(guī)定用羅維朋比色計(jì)法測(cè)定油脂色澤(GB/T 22460—2008)[1]。用羅維朋標(biāo)準(zhǔn)色片與油樣的色澤進(jìn)行比較,色澤深淺用羅維朋黃值和紅值表示,此法也是目前國(guó)際上通行的檢驗(yàn)方法。但是羅維朋比色計(jì)只能在實(shí)驗(yàn)室手動(dòng)操作,不能實(shí)現(xiàn)連續(xù)化和自動(dòng)化,難以滿(mǎn)足現(xiàn)代社會(huì)對(duì)食用油質(zhì)量簡(jiǎn)便、快速、現(xiàn)場(chǎng)化的測(cè)定要求[2]。20世紀(jì)90年代,日本、加拿大等國(guó)相繼開(kāi)展了油脂色澤自動(dòng)測(cè)定儀的研究工作[3-5],但都因與目視羅維朋比色計(jì)之間未能形成良好的相關(guān)性而沒(méi)有在實(shí)際中獲得應(yīng)用。Sun等[6]、陳彩虹等[7]采用計(jì)算機(jī)圖像處理方法測(cè)定油脂色澤。張敏等[8]設(shè)計(jì)了基于DSP和數(shù)字圖像處理技術(shù)的油脂質(zhì)量快速檢測(cè)儀。采用計(jì)算機(jī)圖像處理技術(shù)避免了人為的主觀誤差,多次測(cè)定同一油脂色澤的重復(fù)性較好,但RGB顏色空間是設(shè)備相關(guān)的,且羅維朋標(biāo)準(zhǔn)色片與RGB顏色體系的回歸還是一個(gè)值得深入探討的問(wèn)題。
雖然近年來(lái)關(guān)于近紅外光譜分析在顏色識(shí)別中的應(yīng)用已有少量研究成果[9-12],但到目前為止還鮮有將其應(yīng)用到油脂色澤檢測(cè)的研究報(bào)道,因此本研究以大豆油為檢測(cè)對(duì)象,對(duì)油脂色澤近紅外光譜分析的可行性進(jìn)行深入研究,以期尋找到一種快速簡(jiǎn)便測(cè)定油脂色澤的新方法,進(jìn)而實(shí)現(xiàn)油脂脫色工段的在線(xiàn)監(jiān)測(cè)和調(diào)控。
表1為從大豆油質(zhì)量指標(biāo)(GB 1535—2003)中截取的大豆油脂色澤標(biāo)準(zhǔn)。
表1 大豆油脂色澤標(biāo)準(zhǔn)
研究所用油脂樣本均采集自油脂加工企業(yè),按國(guó)際通行的羅維朋比色計(jì)法測(cè)定油脂色澤,篩選出不同級(jí)別大豆油脂樣本120個(gè),其色澤統(tǒng)計(jì)值如表2所示。
表2 大豆油脂色澤樣品的羅維朋值
利用美國(guó)Thermo Nicolet公司Antaris傅里葉變換近紅外光譜儀對(duì)大豆油脂樣本進(jìn)行透射光譜掃描,波長(zhǎng)范圍4 000~12 000 cm-1,分辨率 4 cm-1,樣品池采用直徑為8 mm透明玻璃管,以空氣作參比,掃描次數(shù)64次,為減小光譜數(shù)據(jù)的測(cè)量誤差,每個(gè)樣本測(cè)量3次,再以3次的平均值作為最終的光譜值,其譜圖如圖1所示。
圖1 油脂色澤樣品的近紅外光譜圖
根據(jù)近紅外光譜吸收的原理,被測(cè)樣品的顏色一定會(huì)對(duì)光譜產(chǎn)生影響。樣品顏色不同時(shí),無(wú)論是在含有紅外活性分子的波段還是在不包含紅外活性分子的波段,光的透過(guò)率都會(huì)發(fā)生變化,這就會(huì)導(dǎo)致所測(cè)到的光譜整體縱向偏移,顏色不同,偏移量不同。理論上,圖1中從4 000~12 000 cm-1中任何一段的吸光度都會(huì)隨著油脂色澤的變化產(chǎn)生不同偏移,利用任何一段建立色澤近紅外光譜判別函數(shù)都可行,但在4 000~9 000 cm-1波段分布著油脂其他含氫基團(tuán)的倍頻與合頻吸收,難免對(duì)色澤分析產(chǎn)生干擾,而9 000~12 000 cm-1是與紅色最接近的短波近紅外波段,其他基團(tuán)的吸收非常微弱,幾乎只有顏色造成的譜線(xiàn)偏移,因此,從中截取9 000~10 500 cm-1波段進(jìn)行建模,以達(dá)到對(duì)不同級(jí)別油脂色澤的正確識(shí)別。為了避免所做的譜圖預(yù)處理削弱顏色特征,本研究只采用平滑處理,利用Savitzky-Golay平滑處理后的光譜如圖2所示。
圖2 Savitzky-Golay平滑光譜
依據(jù)表1的國(guó)標(biāo),大豆油共分4個(gè)等級(jí),一、二級(jí)大豆油為微黃或無(wú)色,三、四級(jí)大豆油為黃色或棕黃色。一級(jí)油固定黃20,紅<2.0;二級(jí)油固定黃35,紅<4.0;三級(jí)油固定黃70,紅<4.0;四級(jí)油固定黃70,紅<6.0。只有先識(shí)別出到底屬于哪一類(lèi)“黃”,才能定量分析它的羅維朋紅值。因此大豆油色澤的近紅外光譜分析既涉及定性分析又包括定量分析,定性分析是定量分析的前提,只有先實(shí)現(xiàn)油脂色澤的等級(jí)分類(lèi),定量分析才有意義。
由于支持向量機(jī)(Support Vector Machines,SVM)既可用于模式識(shí)別又可用于定量校正[13],而且是專(zhuān)門(mén)針對(duì)小樣本建立的統(tǒng)計(jì)學(xué)習(xí)方法,在涉及到小樣本數(shù)、非線(xiàn)性和高維數(shù)據(jù)空間的模式識(shí)別問(wèn)題上表現(xiàn)出了許多傳統(tǒng)模式識(shí)別算法所不具備的優(yōu)勢(shì),非常適合大豆油脂色澤檢測(cè)問(wèn)題,因此采用SVM對(duì)大豆油脂色澤近紅外光譜分析進(jìn)行深入研究。
這里以羅維朋黃值作為類(lèi)別,所以是一個(gè)三分類(lèi)問(wèn)題。但SVM本質(zhì)上是二值分類(lèi)器,因此本課題首先把一級(jí)油和二級(jí)油作為一類(lèi),三級(jí)油和四級(jí)油作為一類(lèi)進(jìn)行二值分類(lèi);分開(kāi)以后,三級(jí)油和四級(jí)油不必再細(xì)分,因?yàn)樗鼈兌际恰包S70”,到底屬于三級(jí)油還是四級(jí)油要靠對(duì)羅維朋紅值的定量回歸結(jié)果判定。而一級(jí)油和二級(jí)油必須再進(jìn)一步細(xì)分,因?yàn)樗鼈兊牧_維朋黃值不同,分開(kāi)以后再分別建立不同的定量校正模型對(duì)其羅維朋紅值進(jìn)行測(cè)定。
本研究利用在Matlab中調(diào)用LIBSVM軟件包[14]實(shí)現(xiàn)SVM的訓(xùn)練和預(yù)測(cè)過(guò)程,定性分析采用CSVM,定量分析采用ε-SVR。
首先將32個(gè)一級(jí)油和32個(gè)二級(jí)油合成一類(lèi)稱(chēng)為淺色油,共64個(gè)樣本,從中抽出20個(gè)做驗(yàn)證集,剩下44個(gè)作為訓(xùn)練集;將26個(gè)三級(jí)油和30個(gè)四級(jí)油合成一類(lèi)稱(chēng)為深色油,共56個(gè)樣本,從中抽出16個(gè)做驗(yàn)證集,剩下40個(gè)作為訓(xùn)練集;兩類(lèi)合在一起共84個(gè)訓(xùn)練集樣本,36個(gè)驗(yàn)證集樣本。
對(duì)于特定的問(wèn)題,SVM的預(yù)測(cè)能力與所采用的核函數(shù)有很大關(guān)系,不同的核函數(shù)形成不同的算法。關(guān)于核函數(shù)的選擇,目前尚無(wú)比較成熟的方法,許多文獻(xiàn)認(rèn)為在分類(lèi)問(wèn)題中,徑向基是首選的核函數(shù)。為了判斷到底哪種核函數(shù)適合油脂色澤分類(lèi),固定懲罰因子C為默認(rèn)值1,調(diào)整γ值到最佳,表3列出了不同核函數(shù)對(duì)分類(lèi)結(jié)果的影響。
表3 深色油和淺色油的分類(lèi)結(jié)果
從表3可以看出,分類(lèi)效果最差的是線(xiàn)性核函數(shù),識(shí)別率為0,說(shuō)明該問(wèn)題屬于線(xiàn)性不可分;其次是Sigmoid和多項(xiàng)式核函數(shù),雖然訓(xùn)練集識(shí)別率都達(dá)到90%以上,但驗(yàn)證集識(shí)別率相對(duì)較低;最適合油脂色澤分類(lèi)的還是徑向基核函數(shù),訓(xùn)練集識(shí)別率和驗(yàn)證集識(shí)別率都達(dá)到100%,因此決定選用徑向基核函數(shù)對(duì)2種淺色油脂進(jìn)一步分類(lèi)。
在32個(gè)一級(jí)油樣品中抽取10個(gè)作為驗(yàn)證集,剩下22個(gè)作為訓(xùn)練集,同樣在32個(gè)二級(jí)油樣品中也抽取10個(gè)作為驗(yàn)證集,剩下22個(gè)作為訓(xùn)練集,2類(lèi)合在一起共44個(gè)訓(xùn)練集樣本,20個(gè)驗(yàn)證集樣本。采用徑向基核函數(shù),固定懲罰因子C為默認(rèn)值1,調(diào)整建立不同的SVM分類(lèi)器以獲得最佳泛化能力,分類(lèi)結(jié)果見(jiàn)表4。
表4 一級(jí)油和二級(jí)油的分類(lèi)結(jié)果
可以看出,當(dāng)γ值大于20時(shí),訓(xùn)練集識(shí)別率和驗(yàn)證集識(shí)別率一直都保持100%,根據(jù)在所建模型對(duì)外部預(yù)測(cè)率盡可能高的前提條件,以支持向量數(shù)最少為原則,確定γ取25,支持向量數(shù)為9時(shí)的SVM為最佳模型。
在實(shí)現(xiàn)了油脂色澤的定性模式識(shí)別,即按羅維朋黃值不同實(shí)現(xiàn)了油脂色澤分類(lèi)后,接下來(lái)的問(wèn)題就是確定羅維朋紅值,即對(duì)不同黃值的油脂分別建立近紅外光譜數(shù)據(jù)與羅維朋紅值回歸校正模型。特別是對(duì)于深色油脂,黃值都是70,需要根據(jù)紅值大小確定到底是屬于三級(jí)油還是四級(jí)油,這時(shí)定量分析意義更大。
在ε-SVR回歸模型中,合理選擇設(shè)計(jì)參數(shù)的值,對(duì)于保證支持向量機(jī)的性能至關(guān)重要。參數(shù)ε表明了對(duì)誤差的期望,ε越小,回歸函數(shù)估計(jì)的精度越高,但支持向量數(shù)越多;ε越大,支持向量數(shù)越少,但回歸精度越低。根據(jù)油脂色澤實(shí)際檢測(cè)精度要求,ε取默認(rèn)值為0.1即可;通常認(rèn)為,懲罰因子C的取值過(guò)小,易使訓(xùn)練誤差變大,取值過(guò)大,又會(huì)使系統(tǒng)的泛化能力變差;對(duì)于核參數(shù)γ,如果取值過(guò)小,則訓(xùn)練誤差小而測(cè)試誤差大,為過(guò)學(xué)習(xí)現(xiàn)象;如果取值過(guò)大,則訓(xùn)練誤差和測(cè)試誤差都很大,為欠學(xué)習(xí)現(xiàn)象。目前尚無(wú)較好的方法確定C和γ,通常都是采用大范圍搜索試驗(yàn)尋找模型最優(yōu)解。
在56個(gè)深色油樣品中,選擇44個(gè)樣品做為訓(xùn)練集,12個(gè)樣品做為驗(yàn)證集。以徑向基核函數(shù)為例,探討懲罰參數(shù)C和核參數(shù)γ選擇。根據(jù)訓(xùn)練集決定系數(shù)R2、校正誤差均方根RMSEC,預(yù)測(cè)集決定系數(shù)R2及預(yù)測(cè)誤差均方根RMSEP的數(shù)值來(lái)確定最佳參數(shù)。由于C與γ組合數(shù)目眾多,無(wú)法以表格形式給出,故采用圖3~圖4的三維立體圖來(lái)顯示變化趨勢(shì)。
圖3 lgC、lgγ和RMSEC關(guān)系圖
圖4 lgC、lgγ和RMSEP關(guān)系圖
圖3顯示了訓(xùn)練集的校正誤差均方根RMSEC與C和γ之間的關(guān)系,可以清晰地看出,隨著C的增大RMSEC減小,而γ的變化對(duì)RMSEC沒(méi)有影響,從而可以得出,C變化影響的主要是SVM的自預(yù)測(cè)能力,在固定γ的情況下,C越大,模型的自預(yù)測(cè)能力越高,但是它與SVM的實(shí)際預(yù)測(cè)能力之間的關(guān)系則不確定。圖4顯示了預(yù)測(cè)誤差均方根RMSEP與C和γ之間的關(guān)系,然而從圖4中無(wú)法看出三者之間有比較明顯的變化規(guī)律,但是對(duì)每一個(gè)不同的C值,都有一個(gè)使RMSEP達(dá)到最小的γ值。經(jīng)過(guò)篩選最后確定,當(dāng)C取1 000,γ取0.000 005時(shí),模型的預(yù)測(cè)能力最好,校正集和預(yù)測(cè)集決定系數(shù)分別為0.992 5和0.990 1,RMSEC和 RMSEP分別為 0.078 5和0.094 3。驗(yàn)證集樣本的預(yù)測(cè)結(jié)果見(jiàn)表5,真實(shí)值與預(yù)測(cè)值之間的誤差均在0.2個(gè)羅維朋單位以?xún)?nèi),且根據(jù)紅值的范圍確定了油脂等級(jí)。
表5 “黃70”樣品的羅維朋紅值預(yù)測(cè)值與真實(shí)值
在32個(gè)一級(jí)油樣品中,選擇25個(gè)樣品做為訓(xùn)練集,7個(gè)樣品做為驗(yàn)證集。方法同上,采用徑向基核函數(shù),經(jīng)過(guò)篩選最終確定當(dāng)C取1 000,γ取0.1時(shí),模型的預(yù)測(cè)能力最佳,校正集和預(yù)測(cè)集決定系數(shù)分別為0.985 2和0.978 9,RMSEC和RMSEP分別為0.061 6和0.065 3。驗(yàn)證集樣本的預(yù)測(cè)結(jié)果見(jiàn)表6,真實(shí)值與預(yù)測(cè)值之間的誤差均在0.2個(gè)羅維朋單位以?xún)?nèi)。
表6 “黃20”樣品的羅維朋紅值預(yù)測(cè)值與真實(shí)值
在32個(gè)二級(jí)油樣品中,同樣選擇25個(gè)樣品做為訓(xùn)練集,7個(gè)樣品做為驗(yàn)證集。方法同上,采用徑向基核函數(shù),經(jīng)過(guò)篩選最終確定當(dāng) C取1 000,γ取0.005時(shí),模型的預(yù)測(cè)能力最佳,校正集和預(yù)測(cè)集決定系數(shù)分別為0.982 5和0.974 7,RMSEC和RMSEP分別為0.058 7和0.076 9。驗(yàn)證集樣本的預(yù)測(cè)結(jié)果見(jiàn)表7,真實(shí)值與預(yù)測(cè)值之間的誤差均在0.2個(gè)羅維朋單位以?xún)?nèi)。
表7 “黃35”的羅維朋紅值預(yù)測(cè)值與真實(shí)值
本研究首先采用C-SVM對(duì)3種不同羅維朋黃值的油脂進(jìn)行分類(lèi),設(shè)計(jì)出不同級(jí)別油脂的SVM分類(lèi)器,識(shí)別正確率達(dá)到100%。在此基礎(chǔ)上,對(duì)不同黃值的油脂利用ε-SVR對(duì)近紅外光譜數(shù)據(jù)與羅維朋紅值進(jìn)行了回歸,建立了不同級(jí)別油脂的SVM回歸校正模型,預(yù)測(cè)誤差均在0.2個(gè)羅維朋單位以?xún)?nèi)。研究表明,利用近紅外光譜分析技術(shù)實(shí)現(xiàn)油脂色澤快速檢測(cè)是完全可行的,該方法可有效避免人為主觀誤差,重復(fù)性好,精確度高,有利于實(shí)現(xiàn)油脂色澤的在線(xiàn)監(jiān)測(cè)和調(diào)控。
[1]GB/T 22460—2008,動(dòng)植物油脂 羅維朋色澤的測(cè)定[S]
[2]馬利.油脂脫色工程的自動(dòng)測(cè)控技術(shù)研究[D].鄭州:河南工業(yè)大學(xué),2007:1-5
[3]Wan P J,Pakarinen D R.Comparison of visual and automated colorimeter for refined and bleached cottonseed oils[J].Journal of the American Oil Chemists’ Society,1995,75:455
[4]Wan P J,Pakarinen D R,Hron R J.Refining testmethod for the determination of cottonseed oil color[J].Journal of the American Oil Chemists’Society,1996,73:815
[5]Wan P J,Hurley TW,Guy JD,et al.Final report-1996 international collaborative study ofoil color-automatedmethod versus visualmeasurements[R].Champaign:American Oil Chemists’Society Press,1996
[6]Sun Fengxia,Zhou Zhanming.Determination of oil color by image analysis[J].Journal of the American Oil Chemists'Society,2001,78(7):749-752
[7]陳彩虹,唐懷建,羅松明.油脂顏色測(cè)定的研究[J].河南工業(yè)大學(xué)學(xué)報(bào),2005,26(5):75-77
[8]張敏,祁金剛,劉保垣,等.基于TMS320VC6412的玉米油脂質(zhì)量快速檢測(cè)儀器的設(shè)計(jì)[J].長(zhǎng)春師范學(xué)院學(xué)報(bào),2006,25(1):37-39
[9]管力明,胡更生,林劍.近紅外光譜在印刷品顏色檢測(cè)中的應(yīng)用[J].中南大學(xué)學(xué)報(bào),2009(6):1655-1659
[10]劉勛.NIRS結(jié)合計(jì)算機(jī)圖像處理技術(shù)分析油菜籽粒色及數(shù)學(xué)模型的創(chuàng)建[D].西南大學(xué),2010(5):20-21
[11]文建萍,陳興苗,孫旭東,等.可見(jiàn)近紅外漫反射光譜法測(cè)定贛南臍橙的表面色澤[J].安徽農(nóng)業(yè)科學(xué),2007,35(36):11805-11806
[12]梁家杰,潘濤,陳星旦,等.白砂糖色值近紅外光譜分析的波段選擇[J].紅外技術(shù),2009,31(2):90-94
[13]Belousov A l,Verzakov S A,Von Frese J.Applicational aspects of support vector machines[J].Journal of Chemometrics,2002,16:482-489
[14]Chih-jen Lin.LIBSVM:A library for support vectormachines[EB/OL].www.csie.ntu.edu.tw/-cjlin/libsv.
Near-Infrared Spectroscopy Analysis of Soybean Oil Color Based on SVM
Wang Liqi1Cui Yue1Zhang Huan2Liu Fei2Li Guibin1Ge Huifang1Yu Dianyu2
(School of Computer and Information Engineering,Harbin University of Commerce1,Haerbin 150028)(School of Food,Northeast Agricultural University2,Haerbin 150030)
The paper has been aimed at the problems of Lovibond tintometer in determination of oil color.The experiment has presented a near-infrared spectrum analysismethod for soybean oil color detection based on SVM.First,three categories of soybean oil with different Lovibond yellow values were recognized by C-SVM.The SVM classifierswhichmight be suitable for near-infrared spectral recognition of soybean oil colorwere designed then.The recognition correct rate had achieved 100%.Second,for the oils with different Lovibond yellow values,the regressions between near-infrared spectral data and Lovibond red valueswere conducted byε-SVR.The SVM correction models for different grade soybean oil color were established respectively.The prediction errors could be controlled within 0.2 Lovibond Unit.The research demonstrated that itwould be feasible to use near-infrared spectrum technology to realize qualitative and quantitative analysis of oil color.Themethod proposed in the paper can be a reference for further implementing on-linemonitoring and control of oil color.
near-infrared spectroscopy,oil color,Support Vector Machines(SVM)
TQ646
A
1003-0174(2015)08-0115-05
國(guó)家自然科學(xué)基金(31271886),黑龍江省高??萍汲晒a(chǎn)業(yè)化前期研發(fā)培育項(xiàng)目(1253CGZH22),哈爾濱商業(yè)大學(xué)博士科研啟動(dòng)項(xiàng)目(12DL023)
2014-03-24
王立琦,女,1966年出生,教授,測(cè)試計(jì)量技術(shù)及儀器
于殿宇,男,1964年出生,教授,糧食、油脂與植物蛋白工程