基于PSO-LSSVM和特征波長提取的羊肉摻假檢測方法

2020-12-07 08:41:52成甜甜王克儉韓憲忠

食品與機械 2020年11期

成甜甜王克儉韓憲忠李師王媛

(1. 河北農(nóng)業(yè)大學(xué)，河北保定 071000; 2. 國家羊肉加工技術(shù)研發(fā)專業(yè)中心〔衡水志豪畜牧科技有限公司〕，河北衡水 053000)

羊肉肉質(zhì)細膩鮮嫩，蛋白質(zhì)含量高，較其他肉類的脂肪、膽固醇含量低[1]，具有豐富的營養(yǎng)價值，不僅溫脾養(yǎng)胃，還有補肝、益血、明目的功效，但由于羊肉價格較高，加工企業(yè)多且散亂難以管理，市場上一些不法商販向羊肉摻入其他動物肉類以謀求暴利，嚴重損害消費者的利益甚至健康。傳統(tǒng)用于檢測摻假的方法大多是基于化學(xué)或物理的方法，例如酶聯(lián)免疫吸附法(Enzyme Linked Immunosorbent Assay，ELISA)、聚合酶鏈反應(yīng)(Polymerase Chain Reaction，PCR)和電子鼻技術(shù)等，但是這些方法操作復(fù)雜、靈敏度不高，甚至會破壞樣品的完整性[2]。

光譜儀可以獲取物體的光譜數(shù)據(jù)信息，如光譜吸收、透射率、反射率、顏色等。將光譜數(shù)據(jù)與計算機技術(shù)結(jié)合，可以對肉類進行無損、快速檢測。王飛翔[3]建立偏最小二乘(PLS)模型，對調(diào)理肉在熟化過程中的水分含量進行預(yù)測，開發(fā)了基于多光譜成像技術(shù)的調(diào)理肉在線檢測系統(tǒng)。范卉[4]應(yīng)用多光譜技術(shù)結(jié)合光學(xué)層析分析技術(shù)，對芝麻油、菜籽油、花生油、調(diào)和油、豬油、餐廚廢棄油和花生煎炸油7類油進行甄別，為食用油和地溝油的鑒別提供了可靠方法。郝廣等[5-6]采用主成分分析法(Principal Component Analysis，PCA)、偏最小二乘法、最小二乘支持向量機(LSSVM)和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)建立定量模型，實現(xiàn)了多光譜成像技術(shù)在番茄醬中蔗糖摻假的快速檢測。Ropodi等[7]針對肉類摻假的問題，提出利用多光譜成像技術(shù)對摻假牛肉進行檢測，并建立了判別模型將所有樣品正確分類。劉友華等[8]針對羊肉摻假濃度檢測問題，采用競爭性自適應(yīng)重加權(quán)法(CARS)法建立特征波長預(yù)測模型，模型的預(yù)測集決定系數(shù)為0.940 0，均方根誤差為0.076 6。白京等[9]采用競爭性自適應(yīng)重加權(quán)法提取特征波長并建立偏最小二乘模型，測定羊肉卷中豬肉摻假比例，其測試集的決定系數(shù)為0.972 5，均方根誤差為0.057 7，相較于全波長模型結(jié)果有所提升。此外，還有一些學(xué)者[10-13]對肉類的含水率和摻假量進行了預(yù)測。

目前中國利用多光譜成像技術(shù)對肉類摻假檢測的研究較少，多數(shù)為對算法模型的簡單應(yīng)用，且未對模型進行改進以提高其預(yù)測能力，預(yù)測結(jié)果的準確度不高。為提高摻假肉檢測準確度，試驗擬將羊肉摻入不同比例的豬肉，利用多光譜系統(tǒng)提取樣品表面的反射率，將摻假羊肉的反射率與羊肉摻入豬肉的濃度建立定量預(yù)測模型，對羊肉中豬肉的摻假濃度預(yù)測，并對模型進行優(yōu)化，提升模型預(yù)測能力。進一步提取特征波長，簡化模型。為摻假羊肉的快速無損識別提供切實可行的方法。

1 材料與方法

1.1 儀器

試驗所用多光譜檢測系統(tǒng)由電腦、光譜儀、可交換狹縫、WS-1漫反射標準白板、海洋光學(xué)配套軟件Ocean View、光纖和探頭等裝置組成。光譜儀(上海蔚海光學(xué)儀器有限公司)型號為海洋光學(xué)(Ocean Optics)的USB2000+，波長范圍在350～1 100 nm，共有2 048個光譜像素數(shù)。

1.2 樣品制備

于保定市場購買的新鮮生肉，選取羊肉里脊和豬肉里脊各1 kg。將羊肉和豬肉中的肥肉去掉，使用榨汁機將兩種肉分別攪碎1 min，直至羊肉和豬肉呈肉糜狀，再分別按照m羊肉∶m豬肉分別為1∶9，2∶8，3∶7，4∶6，5∶5，6∶4，7∶3，8∶2，9∶1均勻混合并分裝在玻璃培養(yǎng)皿中，另外準備一份純羊肉和一份純豬肉的樣本，共11份試驗樣本，每個樣本30 g。

1.3 多光譜數(shù)據(jù)采集與異常數(shù)據(jù)剔除

光譜儀的積分時間設(shè)置為2.85 s，掃描次數(shù)為100次，滑動平均寬度設(shè)為3，試驗環(huán)境溫度為20 ℃。采集光譜數(shù)據(jù)時，數(shù)據(jù)結(jié)果容易受到外界光源或環(huán)境的干擾而產(chǎn)生噪聲，令試驗結(jié)果產(chǎn)生誤差，使得模型效果變差，因此為系統(tǒng)設(shè)計了一個暗箱，保證環(huán)境無可見光的干擾，并且在采集光譜數(shù)據(jù)前，需要使用海洋光學(xué)光譜設(shè)備配套的WS-1漫反射標準白板進行白板校正，以此來減弱外界環(huán)境對數(shù)據(jù)的影響。采集光譜數(shù)據(jù)時，將探頭垂直置于距樣本1 cm的位置，對樣本進行多次掃描。得到波長范圍350～1 100 nm的反射光譜數(shù)據(jù)。

對采集到的原始光譜數(shù)據(jù)進行篩選和歸一化處理，剔除明顯偏高或偏低的異常樣本，盡量選取反射率無交叉，有明顯區(qū)分度的區(qū)域作為分析數(shù)據(jù)。選出可用波段后，將試驗數(shù)據(jù)分為兩部分，訓(xùn)練集用于建立判別模型，測試集用于檢驗?zāi)Ｐ偷臏蚀_度。

1.4 基于粒子群優(yōu)化的最小二乘支持向量機模型(PSO-LSSVM)

最小二乘支持向量機方法結(jié)合粒子群算法，利用PSO對LSSVM的兩個參數(shù)進行最優(yōu)搜索，建立了一種用于羊肉摻假定量檢測的粒子群優(yōu)化最小二乘支持向量機的模型，并將該優(yōu)化模型的預(yù)測結(jié)果與現(xiàn)有模型的預(yù)測結(jié)果進行對比分析。

1.4.1 最小二乘支持向量機最小二乘支持向量機將支持向量機(SVM)優(yōu)化問題的不等式約束替換為等式約束，對于給定的m組樣本(xi,yi)，樣本數(shù)i=1，2，…，m，xi為n維輸入向量，yi為輸出向量。LSSVM在回歸時用超平面對m組數(shù)據(jù)進行擬合。

(1)

約束條件為：

yi=wTφ(xi)+b+ei，

(2)

式中：

w——超平面權(quán)重向量；

b——超平面偏差向量；

e——訓(xùn)練點的誤差；

γ——懲罰系數(shù)。

式(2)中的γ越高代表對誤差的容忍度越小，γ越低代表對誤差的容忍度越大，合理取值可以提高模型的預(yù)測能力。

構(gòu)造拉格朗日(Lagrange)函數(shù)求解：

(3)

式中：

ai——xi對應(yīng)的拉格朗日乘子。

求解過程中引入高斯核函數(shù)K(x,xi)：

(4)

高斯核函數(shù)中σ決定數(shù)據(jù)映射到新的特征空間后的分布，σ越大支持向量越少，σ越小支持向量越多。支持向量的個數(shù)與預(yù)測的速度有關(guān)。

推導(dǎo)最終得到LSSVM回歸函數(shù)：

(5)

1.4.2 粒子群優(yōu)化算法粒子群算法是通過模擬鳥類飛行覓食而設(shè)計出的一種群體智能優(yōu)化算法。已知在一個區(qū)域內(nèi)有一塊食物，鳥群知道當前位置離食物還有多遠，找到食物最簡單有效的方法就是搜索離食物最近的鳥的周圍區(qū)域。采用粒子群算法優(yōu)化最小二乘支持向量機的兩個參數(shù)γ和σ，在問題中，每一個解都是空間中的一只鳥，稱為粒子，代表兩個參數(shù)的不同組合，食物代表最優(yōu)的參數(shù)組合，粒子通過迭代搜索調(diào)整自己的位置和速度尋找到最優(yōu)解。

(1) 對粒子群中粒子i的位置zi=(γi,σi)和速度vi隨機初始化，生成大小為n的粒子種群。

(2) 將每個粒子代入LSSVM模型對訓(xùn)練集數(shù)據(jù)擬合，得到模型的預(yù)測值f(xi)與期望輸出yi，訓(xùn)練結(jié)果的均方根誤差決定每個粒子的適應(yīng)度值(fitness)。

(6)

(3) 每個微粒根據(jù)適應(yīng)度值更新自己的個體最優(yōu)值(pbesti)和群體最優(yōu)值(gbesti)。

pbesti=(pbesti1,pbesti2,…,pbestin)，

(7)

gbesti=(gbesti1,gbesti2,…,gbestin)。

(8)

(4) 根據(jù)適應(yīng)度值對粒子的速度和位置進行更新。

vi=vi+c1×rand()×(gbesti-zi)+c2×rand()×(gbesti-zi)，

(9)

zi=zi+vi，

(10)

式中：

c1、c2——學(xué)習因子。

在粒子群算法中，學(xué)習因子的取值一般為2，rand()為0和1之間的隨機數(shù)。

(5) 通過終止條件判斷是否結(jié)束迭代，得到粒子的最優(yōu)位置。

1.5 特征波長提取

提取特征波長不僅可以簡化模型，還能剔除無關(guān)變量，提升模型性能和預(yù)測能力，增強穩(wěn)定性。試驗分別采用隨機青蛙算(RF)[14]、無信息變量消除法(UVE)[15-16]、競爭性自適應(yīng)重加權(quán)法[17]提取特征波長，以提取出的波長作為輸入變量建立偏最小二乘特征波長模型，對比預(yù)測結(jié)果，得到最優(yōu)的特征提取算法。

2 結(jié)果與討論

2.1 原始光譜

利用多光譜檢測系統(tǒng)對樣本提取反射率，圖1為樣本在350～1 100 nm波段下的反射率。由圖1可知，相同波段下不同摻假比例的樣本反射率走勢相同，在某些波段下有明顯區(qū)分。樣本中有一條數(shù)據(jù)反射率明顯偏低，考慮是由于試驗誤操作引起，可以剔除。數(shù)據(jù)兩側(cè)的噪聲較多不平滑，走勢密集不易區(qū)分，不宜選用，故選取波段中間500～650 nm下427個波長點的反射率作為可用數(shù)據(jù)。由于數(shù)據(jù)的量綱不同，并且數(shù)據(jù)尺度不統(tǒng)一時對預(yù)測模型的結(jié)果影響很大，故需要對光譜數(shù)據(jù)作歸一化處理，將數(shù)據(jù)映射在-1和1之間，結(jié)果如圖2所示。

2.2 全波長模型

選取了可用波段的數(shù)據(jù)后，將32組數(shù)據(jù)按照2∶1分為訓(xùn)練集和測試集，有21組訓(xùn)練集數(shù)據(jù)(xi，yi)(i=1，2，…，21)，xi為427維輸入向量，代表427個波點數(shù)，yi為羊肉摻入豬肉的濃度。

利用粒子群優(yōu)化算法，對最小二乘支持向量機的兩個參數(shù)γ和σ進行尋優(yōu)，初始化粒子群的種群大小、學(xué)習因子、位置、速度、搜索范圍和迭代次數(shù)。將粒子i的位置zi=(γi,σi)代入LSSVM模型對訓(xùn)練集數(shù)據(jù)進行擬合，模型預(yù)測結(jié)果的均方根誤差作為粒子群算法的適應(yīng)度值，每個粒子根據(jù)自身適應(yīng)度值，得到pbest和gbest，計算更新粒子的速度vi和zi，直到迭代結(jié)束得到全局最優(yōu)的位置，即為粒子群算法優(yōu)化所得兩參數(shù)γ和σ。

圖1 原始光譜圖像

圖2 歸一化后的光譜圖像

2.3 特征波長提取和特征波長模型

2.3.1 隨機青蛙采用隨機青蛙算法在對500～650 nm波段下的32組數(shù)據(jù)提取特征波長，為減少算法中隨機因素的影響，將算法運行1 000次并以選擇概率平均值作為波長選擇的依據(jù)，結(jié)果如圖4。選擇概率越大說明該變量對模型越重要，由圖4可知，只有小部分的波長選擇概率較大，最終選出前10個概率最大的波長作為特征波長，分別為588.944，560.757，618.225，639.282，512.897，620.650，524.040，536.212，500.265，621.689 nm。

2.3.2 無信息變量消除法 UVE將變量回歸系數(shù)和標準偏差的比作為評判變量穩(wěn)定性的值，穩(wěn)定性絕對值越大，證明該變量的可靠性越高。對所有波長點計算穩(wěn)定性后結(jié)果見圖5。選擇穩(wěn)定性大于4的17條波長：504.963，536.927，578.408，579.815，582.979，583.330，584.032，584.383，584.735，611.630，612.325，612.673，613.020，513.367，615.450，615.797，633.087 nm。

圖3 模型預(yù)測輸出

表1 不同模型的預(yù)測效果

圖4 隨機青蛙平均概率

2.3.3 競爭性自適應(yīng)重加權(quán)法通過自適應(yīng)重加權(quán)采樣法去掉PLS模型中回歸系數(shù)絕對值權(quán)重較小的波長點，得到的結(jié)果見圖6，從427個波長點中提取出了20個波長點，分別為500.265，513.977，523.681，557.213，560.757，568.184，584.383，588.944，596.644，606.064，610.935，614.409，618.225，619.957，621.342，635.153，637.563，639.282，641.687，649.574 nm。

圖5 UVE對樣品穩(wěn)定性值的計算結(jié)果

圖6 CARS特征波長分布

表2 不同特征波長提取方法下的模型預(yù)測效果

3 結(jié)論

應(yīng)用多光譜圖像技術(shù)獲取羊肉和摻假羊肉在350～1 100 nm 波段下的反射率，建立偏最小二乘、BP神經(jīng)網(wǎng)絡(luò)、最小二乘支持向量機3種定量判別模型，并通過粒子群算法算法對最小二乘支持向量機的兩個參數(shù)進行優(yōu)化后建立模型，通過比較預(yù)測結(jié)果可知，最小二乘支持向量機在3種常用模型中的預(yù)測結(jié)果最優(yōu)，使用粒子群算法優(yōu)化最小二乘支持向量機后，模型預(yù)測效果顯著提升。采用隨機青蛙、無信息變量消除法、競爭性自適應(yīng)重加權(quán)法對500～650 nm波段下的數(shù)據(jù)提取特征波長后建立偏最小二乘模型，結(jié)果顯示模型預(yù)測效果整體提升，其中基于無信息變量消除法提取特征波長建立的模型預(yù)測結(jié)果最好。

試驗還需進一步完善，擴充樣本數(shù)量，對羊肉不同部位的肉作進一步研究和區(qū)分，增加不同種類動物的肉與羊肉摻雜，擴大模型的應(yīng)用范圍。