楊承恩, 武海巍*, 楊 宇, 蘇 玲, 袁月明, 劉 浩, 張愛武, 宋子洋
1. 吉林農(nóng)業(yè)大學(xué)工程技術(shù)學(xué)院, 吉林 長春 130118
2. 吉林農(nóng)業(yè)大學(xué)食藥用菌教育部工程研究中心, 吉林 長春 130118
3. 吉林農(nóng)業(yè)大學(xué)動物科學(xué)技術(shù)學(xué)院, 吉林 長春 130118
鹿角帽又稱鹿茸盤, 鹿角盤, 具有溫腎補虛、 強筋壯骨、 活血、 下乳消散瘀等功效[1]。 鹿角帽質(zhì)地堅硬, 一般是研磨為細(xì)粉服用。 近年來隨著鹿藥材市場的火熱, 再加上鹿角帽本身是含有鹿茸成份的骨質(zhì)物, 所以一些不良商家利用馬鹿角帽粉與梅花鹿骨粉假冒梅花鹿角帽粉, 或用便宜的動物骨頭粉, 特別是牛骨粉對梅花鹿角帽粉進行摻假來欺騙消費者。 消費者很難從外觀上去識別, 因此有必要研究梅花鹿角帽粉的質(zhì)量檢測方法, 規(guī)范鹿角帽市場。
傅里葉變換紅外光譜(Fourier translation infrared spectroscopy, FTIR)技術(shù)是一種高效, 環(huán)保, 可實時在線解析的方法。 目前, 紅外光譜分析已經(jīng)成為發(fā)展最快、 最引人矚目的一門獨立分析技術(shù)[2-3], 其在中藥材檢測方面具有廣泛的應(yīng)用前景[4]。 孫飛等通過紅外光譜對姜半夏進行識別[5]; 張久旭等利用紅外光譜顯微成像識別當(dāng)歸粉末[6]; 鄭潔等利用紅外光譜圖像對苦杏仁和桃仁藥材進行鑒別[7]。 目前國內(nèi)外使用中紅外光譜對鹿角帽的檢測研究進展不多, 存在以下不足: (1)實驗得到的光譜圖像沒有經(jīng)過處理而是直接進行人為的與以自身規(guī)定的標(biāo)準(zhǔn)光譜對比, 需完全一致才確定是正品。 (2)若相似或有較小區(qū)別還需進行其他人為實驗對比。 (3)沒有對市場上鹿角帽粉的假冒和摻假問題進行研究。 (4)中紅外光譜本身很難具備一模一樣的光譜重復(fù)性, 測試精確度要求很高, 不適應(yīng)現(xiàn)在鹿角帽市場要求的高效, 快速, 準(zhǔn)確檢測特點。
找到一種高效, 快速, 準(zhǔn)確的梅花鹿角帽粉質(zhì)量在線檢測方法是鹿角帽市場急需解決的關(guān)鍵問題。 本研究采用中紅外光譜以梅花鹿角帽粉為正品鹿角帽粉, 馬鹿角帽粉與梅花鹿骨粉為假冒偽品, 牛骨粉摻假梅花鹿角帽粉為摻假次品作為研究對象, 采集它們的光譜數(shù)據(jù), 對數(shù)據(jù)進行多元散射校正(multiplicative scatter correction, MSC)處理[8], 并把MSC全光譜(FS)數(shù)據(jù)采用歸一化和主成分分析(principal component analysis, PCA)進行優(yōu)化[9], 最后將全光譜(FS)數(shù)據(jù)與進行主成分分析(PCA)后的光譜數(shù)據(jù), 二者結(jié)合支持向量機(support vector machine, SVM), 隨機森林(random forest, RF), 極限學(xué)習(xí)機(extreme learning machine, ELM)建立模型進行判別比較[10-11], 得出最優(yōu)識別模型, 從而實現(xiàn)對梅花鹿角帽粉假冒與摻假的快速、 無損檢測。
樣品梅花鹿角帽, 馬鹿角帽, 梅花鹿骨采購于黑龍江, 吉林, 遼寧3省共5個地區(qū), 樣品分布如表1, 牛骨采購于長春市南關(guān)區(qū)農(nóng)貿(mào)市場。 將以上材料烘干、 粉碎, 過200目篩供光譜測試用。 將純梅花鹿角帽粉與純馬鹿角帽粉, 純梅花鹿骨粉樣品各120份, 共360份。 再將5個地區(qū)純梅花鹿角帽粉與牛骨粉制備摻假樣品, 比例分別為5%, 10%, 20%, 30%, 40%和50%, 每個地區(qū)每種比例4份, 共120份摻假樣品。
主要設(shè)備: Nicolet is10 傅里葉變換紅外光譜儀(美國Thermo scientific), HY-12型壓片機(天津天光光學(xué)儀器有限公司), CS-700型超帥高速多功能粉碎機(武義海納電器有限公司), 200目不銹鋼篩等等。
數(shù)據(jù)采用Omnic v8.2光譜采集軟件、 The unscrambler x 10.4、 Matlab2014b、 Origin2019b、 Python3.7數(shù)據(jù)處理軟件進行處理。
表1 鹿材料樣品采集信息
精密稱取每份待測樣品1.8 mg和溴化鉀190 mg將其放置在75 ℃恒溫干燥箱內(nèi)烘8 h以后取出, 置于瑪瑙研缽中研磨均勻; 將研細(xì)后的粉末平鋪于紅外壓片模具中壓制成片, 將制好的薄片置于中紅外光譜儀上, 采用Omnic v8.2軟件采集光譜信息。 波數(shù)范圍4 000~400 cm-1, 分辨率為4 cm-1, 掃描次數(shù)為16次, 每個樣本重復(fù)掃描3次, 取平均光譜。 光譜采集過程中, 保持室內(nèi)溫度25 ℃, 濕度40度。 實驗采集梅花鹿角帽粉假冒對比樣品360份, 摻假樣品120份, 共計480份樣品數(shù)據(jù)。
光譜信息易受高頻隨機噪聲、 基線漂移和光散射等影響, 需對原始光譜進行預(yù)處理, 減少這些干擾。 采用The unscrambler x 10.4軟件對采集的原始光譜進行多元散射校正(MSC), 標(biāo)準(zhǔn)正態(tài)化(standard normal variable transformation, SNV), 平滑(smoothing, SG), 一階導(dǎo)數(shù), 二階導(dǎo)數(shù)等數(shù)據(jù)處理, 再與原始光譜進行對比。
經(jīng)過光譜對比, 可看出經(jīng)過多元散射校正(MSC)處理的光譜差異性更為明顯如圖1。 在中紅外光譜中特征峰是判斷光譜區(qū)別的主要方式[12-13]。 由圖1可以看出梅花鹿角帽粉正品與假冒偽品, 摻假次品在波段1 300~1 800和2 800~3 600 cm-1波峰有一定差異。 尤其是摻假比例達到10%以上的梅花鹿角帽粉與純梅花鹿角帽粉有著明顯差異, 但摻假10%的梅花鹿角帽粉與馬鹿角帽粉差距不大。
對MSC光譜數(shù)據(jù)進行樣品劃分, 在數(shù)據(jù)選擇上使用Kennard-stone(K-S)法抽樣, 將訓(xùn)練集與測試集比例定為3∶1進行劃分480份樣品, 得訓(xùn)練集360份(梅花鹿角帽粉, 馬鹿角帽粉, 梅花鹿骨粉, 牛骨粉摻假鹿角帽粉各90份)。 測試集120份(梅花鹿角帽粉, 馬鹿角帽粉, 梅花鹿骨粉, 牛骨粉摻假鹿角帽粉各30份)。 此處牛骨粉摻假鹿角帽粉樣品按摻假比例劃分, 其中每種比例20份, 訓(xùn)練集15份, 測試集5份。
中紅外光譜是有機物和無機離子的基頻吸收帶, 是分子吸收能力最強的振動譜區(qū)。 中紅外光譜數(shù)據(jù)的特點是波段多、 數(shù)據(jù)量大、 冗余性強。 因此需要對MSC光譜數(shù)據(jù)進行處理。 使用matlab2014b軟件中的Map minmax函數(shù)把光譜數(shù)據(jù)進行歸一化處理, 將數(shù)據(jù)映射到0~1范圍內(nèi)如圖2[14]。
圖1 樣品紅外光譜圖
圖2 歸一化后的不同樣品平均光譜圖
主成分分析(PCA)是將高維度數(shù)據(jù)保留下最重要的一些特征, 去除噪聲和不重要的特征, 從而實現(xiàn)提升數(shù)據(jù)處理速度的方法。 這里將歸一化后的光譜數(shù)據(jù)采用基于python3.7平臺pandas庫中的PCA函數(shù)進行主成分分析降維。 此處展示MSC全光譜訓(xùn)練集前10個主成分特征值和貢獻率如表2。 在MSC全光譜中PCA1的貢獻率最大為51.75%, PCA2的貢獻率為18.94%, 前3個PCA的累積貢獻率為82.49%, 直到前7個PCA的累積貢獻率為97.81%, 之后的各PCA貢獻率都小于1%且累積貢獻率提高速度逐步變小。 MSC全光譜主成分分析降維后的訓(xùn)練集第一, 第二主成分得分散點圖, 如圖3。
主成分個數(shù)選擇極大的影響算法建模結(jié)果。 這里采用主成分個數(shù)累積貢獻率≥85%原則結(jié)合主成分特征值≥1原則, 選擇經(jīng)PCA降維后的前7個主成分。 將光譜數(shù)據(jù)從480行7 469列, 降低為480行7列, 極大減少數(shù)據(jù)冗余, 提高建模識別效率。
表2 訓(xùn)練集的主成分總方差解釋
圖3 訓(xùn)練集前2個主成分的得分
直接使用中紅外原始光譜數(shù)據(jù)建??赡軙P托阅懿?、 效率低, 但另一方面數(shù)據(jù)降維也會減少樣品信息, 可能損失關(guān)鍵性特征影響建模效果。 為了更好對比光譜特征的選擇, 此處分別將全光譜(FS)數(shù)據(jù)與經(jīng)PCA降維后的前7個主成分光譜數(shù)據(jù)作為輸入變量, 建立SVM, RF和ELM梅花鹿角帽粉假冒與摻假識別模型。 圖4—圖6是不同模型對訓(xùn)練集梅花鹿角帽粉假冒與摻假識別結(jié)果; 圖5和圖6中, 1代表梅花鹿角帽粉, 2代表馬鹿角帽粉, 3代表梅花鹿骨粉, 4代表牛骨粉摻假梅花鹿角帽粉。
2.4.1 SVM模型
SVM是一種有堅實理論基礎(chǔ)的小樣本學(xué)習(xí)方法。 其適用于小樣本的數(shù)據(jù)分析, 在實際運用中總能取得不錯的效果。
訓(xùn)練集使用K-CV交叉驗證法, 同時SVM需要確定最佳懲罰因子(c)、 核函數(shù)參數(shù)(g), 及最優(yōu)核函數(shù)。 這里采用網(wǎng)格搜索法來尋找最優(yōu)參數(shù)c和g, 選擇徑向基核函數(shù)(radial basis function, RBF)作為最優(yōu)核函數(shù)。 分別建立基于FS與PCA數(shù)據(jù)的SVM識別模型如圖4, 表3。
圖4 SVM的訓(xùn)練集參數(shù)尋優(yōu)曲線
表3 SVM的測試集識別結(jié)果
由圖4, 表3可知, FS-SVM, PCA-SVM訓(xùn)練集和測試集識別率均為100%, 但是FS-SVM建模識別時間為4 859.36 s, PCA-SVM建模識別時間僅為19.91 s。 綜合比較, PCA-SVM模型效果更好。
2.4.2 RF模型
RF是以集成學(xué)習(xí)思想為核心的分類、 回歸算法。 其具有實現(xiàn)簡單, 計算消耗少, 泛化誤差小的特點, 能夠有效提高對新樣本的分類準(zhǔn)確度。
RF模型需要確定參數(shù)較多, 參數(shù)選擇又直接影響模型精度, 設(shè)置合理參數(shù)可以顯著提升模型的分類準(zhǔn)確性。 這里利用遺傳算法優(yōu)秀的全局尋優(yōu)能力來尋找RF模型最優(yōu)參數(shù)。 分別建立基于FS與PCA數(shù)據(jù)的RF識別模型如圖5, 表4。
圖5 RF的訓(xùn)練集建模識別結(jié)果
表4 RF的測試集識別結(jié)果
如圖5, 表4可知, FS-RF與PCA-RF建模時間分別為1 818.96和16.93 s, 二者訓(xùn)練集識別準(zhǔn)確率為100%, 但PCA-RF測試集識別率為96.67%, FS-RF測試集識別率為100%。 在測試集中, PCA-RF模型將4份梅花鹿骨粉識別錯誤。 整體來說, FS-RF模型識別率高于PCA-RF模型。
2.4.3 ELM模型
ELM是基于前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上, 巧妙地將隱含層個數(shù)與樣本個數(shù)進行聯(lián)系, 建立全新的單隱藏層前饋神經(jīng)網(wǎng)絡(luò)。 其解決人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練時間較長的缺點, 是一種學(xué)習(xí)速度快, 泛化性能好的算法。
在ELM模型中, 隱藏節(jié)點的設(shè)置直接影響建模結(jié)果。 這里選擇sigmoidal函數(shù)作為激活函數(shù), 隱含層神經(jīng)元個數(shù)為1~480, 步長為1。 分別建立基于FS與PCA數(shù)據(jù)的ELM識別模型如圖6, 表5。
圖6 ELM的訓(xùn)練集建模識別結(jié)果
表5 ELM的測試集識別結(jié)果
由圖6, 表5可知, 當(dāng)隱含層神經(jīng)元個數(shù)為381, FS-ELM模型識別效果最好, 建模時間為1 985.39 s, 訓(xùn)練集識別率為95.56%, 將1份馬鹿角帽粉與4份梅花鹿骨粉, 11份牛骨粉摻假梅花鹿角帽粉識別錯誤; 測試集識別率為95.83%, 將1份梅花鹿角帽粉, 4份牛骨粉摻假梅花鹿角帽粉。 當(dāng)隱含層神經(jīng)元個數(shù)為420, PCA-ELM模型識別效果最好, 建模時間為15.93 s, 訓(xùn)練集識別率為96.94%, 將1份梅花鹿角帽份與4份馬鹿角帽粉, 2份梅花鹿骨粉, 4份牛骨粉摻假梅花鹿角帽粉識別錯誤; 測試集識別率為97.5%, 將1份梅花鹿角帽粉與1份馬鹿角帽粉, 1份牛骨粉摻假梅花鹿角帽粉識別錯誤。 綜合來說PCA-ELM模型優(yōu)于FS-ELM模型。
使用中紅外光譜結(jié)合支持向量機對梅花鹿角帽粉假冒與摻假進行識別。 結(jié)果顯示:
(1)同樣建模的參數(shù)和環(huán)境下, FS-SVM, FS-RF, FS-ELM建模時間分別為4 859.36, 1 818.96和1 985.39 s, 而PCA-SVM, PCA-RF, PCA-ELM建模時間為19.91, 16.93和15.93 s。 說明利用PCA降維后的光譜數(shù)據(jù)建模時間遠低于FS數(shù)據(jù)建模時間, 提高了建模識別的效率。
(2)FS-SVM, PCA-SVM, FS-RF模型訓(xùn)練集與測試集識別率均為100%, 其他模型識別率均低于98%。 但從簡化模型的效果上來看PCA-SVM模型最優(yōu), 既保證了100%的識別率又提高了建模速度。
(3)利用中紅外光譜結(jié)合支持向量機對梅花鹿角帽粉假冒與摻假有著良好的識別效果, 為解決鹿角帽的質(zhì)量控制問題提供了新思路, 可以進一步推廣應(yīng)用于其他類型鹿藥材的快速鑒別。