陳 蓓,鄭恩讓*,郭 拓
1. 陜西科技大學(xué)電氣與控制工程學(xué)院,陜西 西安 710021 2. 陜西科技大學(xué)電子信息與人工智能學(xué)院,陜西 西安 710021
紅參屬于傳統(tǒng)的名貴中藥材,國(guó)內(nèi)外廣泛應(yīng)用于中醫(yī)臨床和中藥制劑,具有補(bǔ)氣、 安神、 強(qiáng)心、 抗癌等功效[1]。在紅參提取過程中,由于原料來源、 年份、 工藝、 提取過程質(zhì)量的控制等差異,會(huì)影響中藥材的利用率、 藥物雜質(zhì)的浸出量和中成藥藥效成分的含量,引起紅參提取物成分含量的批間差異,對(duì)后續(xù)產(chǎn)品的質(zhì)量產(chǎn)生重要的影響[2]。按照《中國(guó)藥典》2020年版有關(guān)規(guī)定[3],用高效液相色譜(HPLC)法測(cè)定紅參中人參皂苷含量來評(píng)估紅參的質(zhì)量,該方法具有很高的準(zhǔn)確度,但需要化學(xué)試劑和一系列的樣品預(yù)處理[4],過程相對(duì)復(fù)雜、 污染環(huán)境且耗時(shí)較長(zhǎng),無法滿足紅參提取生產(chǎn)過程現(xiàn)場(chǎng)監(jiān)控的需求。
近年來,近紅外光譜技術(shù)由于環(huán)保和快速性等優(yōu)點(diǎn),已經(jīng)成功地應(yīng)用于食品[5]、 制藥[6]、 化工[7]等領(lǐng)域。劉喚等[8]對(duì)近紅外光譜技術(shù)在紅參質(zhì)量控制方面的研究進(jìn)行了詳細(xì)的綜述,肖雪等[9]利用近紅外光譜測(cè)定了紅參提取過程中的人參皂苷的成分含量,對(duì)1提和2提過程分別建模,含量較低的Rc模型精度有待完善。以上研究證明了近紅外光譜技術(shù)在紅參提取過程中對(duì)人參皂苷含量監(jiān)測(cè)的可行性,但建模都依賴于儀器本身自帶的光譜分析軟件,精度無法滿足實(shí)際需要。呂曉菡等[10]在用近紅外檢測(cè)辣椒素的含量中,采用SPA,UVE和CARS三種方法提取特征波長(zhǎng)再PLS建模,并于全光譜進(jìn)行了對(duì)比分析。但多種智能的光譜篩選算法結(jié)合近紅外光譜技術(shù),應(yīng)用于中藥提取過程建模鮮有研究。
本文在紅參乙醇回流提取過程中,在線采集提取液的近紅外光譜,結(jié)合高效液相測(cè)定的人參皂苷含量參照值,以提取液中高含量的Rg1和含量低的Rc為對(duì)象,剔除異常樣本,進(jìn)行光譜預(yù)處理,利用競(jìng)爭(zhēng)適應(yīng)性重加權(quán)采樣法、 無信息變量消除法、 隨機(jī)蛙跳算法和連續(xù)投影算法優(yōu)選波長(zhǎng)變量,再建立PLS模型,實(shí)現(xiàn)紅參提取生產(chǎn)過程中質(zhì)控成分的在線監(jiān)控,選出最優(yōu)的波長(zhǎng)篩選算法,并對(duì)比驗(yàn)證了該算法的穩(wěn)健性,為實(shí)現(xiàn)快速簡(jiǎn)便的紅參提取液質(zhì)量監(jiān)測(cè)提供技術(shù)參數(shù)。
SupNIR4510型近紅外光譜儀(聚光科技(杭州)有限公司),Ultimate3000型高效液相色譜儀(美國(guó)Thermo公司),Mill-Q純水系統(tǒng)(美國(guó)Milllipore公司),XS-105型電子天平(Mettler-Toledo公司),Matlab2018(美國(guó)MathWorks公司),紅參藥材樣品(神威藥業(yè)有限公司),人參皂苷Rg1和Rc對(duì)照品(成都曼斯特生物科技有限公司),乙腈(色譜純,美國(guó)Fisher公司)。
藥材經(jīng)過選擇,清洗,精制等初步處理,通過與一定濃度的乙醇水溶液加熱回流提取。采用NIRS在線儀器對(duì)紅參提取過程進(jìn)行監(jiān)控。采集了提取過程中的三批樣本,所有樣本均為前兩次提取過程的提取液,總共128個(gè)。光譜儀的掃描范圍為1 000~2 499 nm,每四分鐘采樣一次,分辨率為1 nm,采用透射方式,每個(gè)樣品掃描三次,將平均值作為最終原始光譜數(shù)據(jù),并將導(dǎo)出數(shù)據(jù)存儲(chǔ)在EXCEL表格中。
在近紅外光譜儀監(jiān)控的同時(shí),對(duì)所采集的紅參提取液進(jìn)行HPLC分析。以提取液中人參皂苷含量高的Rg1、 和含量低的Rc為參考對(duì)象,使用比色法在207 nm的檢測(cè)波長(zhǎng)為下進(jìn)行測(cè)量,并讀出待測(cè)樣品的含量,將其作為近紅外光譜分析的對(duì)照值。
近紅外光譜分析技術(shù)是一種間接的分析手段,采集光譜數(shù)據(jù)的同時(shí),必須通過國(guó)家標(biāo)準(zhǔn)的方法檢測(cè)出成分含量作為參考值,剔除異常點(diǎn)和對(duì)光譜進(jìn)行預(yù)處理,然后應(yīng)用光譜篩選算法優(yōu)選波長(zhǎng)變量,再應(yīng)用偏最小二乘(partial least squares,PLS)建立定量模型并評(píng)價(jià)可行性,最后再用所建模型對(duì)未知的樣品進(jìn)行定量分析,紅參提取液的人參皂苷成分建模的步驟如圖1所示。
1.3.1 光譜波長(zhǎng)變量篩選
近紅外光譜包含有關(guān)樣品性質(zhì)的豐富信息,每個(gè)光譜都包含了許多波長(zhǎng)點(diǎn),但其存在譜帶寬、 不同組分的峰信息重疊且彼此干擾,因此直接用近紅外光譜建模是困難的,必須先進(jìn)行特征波長(zhǎng)優(yōu)選,然后才能將其用于定量建模。本文中采用的特征波長(zhǎng)篩選算法有競(jìng)爭(zhēng)適應(yīng)性重加權(quán)采樣法、 無信息變量消除法、 連續(xù)投影算法、 隨機(jī)蛙跳算法。
競(jìng)爭(zhēng)適應(yīng)性重加權(quán)采樣法(competitive adaptive reweighted sampling, CARS)是由梁逸曾教授的課題組在2009年提出的[11]。當(dāng)CARS使用MC采樣時(shí),在每次迭代中都會(huì)再次隨機(jī)選擇校正集樣品,使用指數(shù)衰減函數(shù)強(qiáng)制選擇波長(zhǎng),然后使用自適應(yīng)性重加權(quán)方法優(yōu)化波長(zhǎng)變量,挑選交互驗(yàn)證均方根誤差最小的變量子集。無信息變量消除法[12](uninformative variable elimination,UVE)基本原理是在原始近紅外光譜之后添加人工白噪聲信號(hào),再根據(jù)噪聲信號(hào)的穩(wěn)定性給定一個(gè)閾值,然后刪除波長(zhǎng)變量中比此閾值小的變量,并保留其余的波長(zhǎng)變量。連續(xù)投影算法[13](successive projection algorithm,SPA)屬于前向選擇變量算法,首先選擇一個(gè)波長(zhǎng)變量作為初始值,計(jì)算該變量在其余變量上的投影,將最大投影向量對(duì)應(yīng)的波長(zhǎng)作為新的待選變量,依次迭代,直到內(nèi)部交互驗(yàn)證均方根誤差達(dá)到最小,能最大限度地消除光譜變量之間的共線性。隨機(jī)蛙跳算法(random frog, RF)是一種后啟發(fā)式群體優(yōu)化算法,是Eusuff等[14]為解決組合優(yōu)化問題而提出的。該算法也是以優(yōu)化校正模型的預(yù)測(cè)精度為目標(biāo),把各波長(zhǎng)在循環(huán)計(jì)算中被選擇的概率作為基準(zhǔn),通過循環(huán)迭代,選擇概率最高的前十個(gè)特征波長(zhǎng)建立預(yù)測(cè)模型。
圖1 紅參提取近紅外光譜技術(shù)建模過程流程圖Fig.1 Flow chart of NIRS modeling process ofred ginseng extraction
1.3.2 模型評(píng)價(jià)
采用下列評(píng)價(jià)參數(shù)[15]:
(1)交叉驗(yàn)證均方根誤差和預(yù)測(cè)均方根誤差
(2)決定系數(shù)R2
(3)預(yù)測(cè)相對(duì)分析誤差(residual predictive deviation, RPD)
式中,n為校正集或者驗(yàn)證集的樣本數(shù)量,ypi為模型預(yù)測(cè)值,yi為樣本真實(shí)值。通常,好的定量分析模型應(yīng)具有較低的RMSECV和RMSEP,較高的R2和RPD值。
將在線采集到的128個(gè)紅參提取液樣本光譜,用matlab軟件畫出原始光譜如圖2所示。兩次提取液人參皂苷含量差距較大,但從光譜數(shù)據(jù)中并不能直接區(qū)分。
圖2 128份紅參樣品的近紅外原始光譜圖Fig.2 NIR spectra of 128 red ginseng samples
異常樣本的存在會(huì)在一定程度上影響模型的適應(yīng)性和準(zhǔn)確性,采用蒙特卡洛采樣法剔除4個(gè)奇異數(shù)據(jù),剩余124個(gè)樣本用作建模。并根據(jù)KS(Kennard-Stone)法,按照3∶1對(duì)數(shù)據(jù)集分類,分得校正集93個(gè)樣本,驗(yàn)證集31個(gè)樣本,樣本的具體劃分結(jié)果及數(shù)據(jù)統(tǒng)計(jì)如表1所示,校正集和驗(yàn)證集的濃度范圍、 平均值和標(biāo)準(zhǔn)差也非常接近,滿足了對(duì)建模樣本進(jìn)行劃分的要求。
表1 樣本劃分統(tǒng)計(jì)表Table 1 Statistical table of sample division
對(duì)于紅參提取液的原始光譜,選擇不同的波段并利用標(biāo)準(zhǔn)正態(tài)變換(SNV)、 多元散射校正(MSC)、 求導(dǎo)、 卷積、 差分等10種方法對(duì)光譜進(jìn)行預(yù)處理,并建立PLS模型驗(yàn)證。對(duì)比最終選擇1 000~2 099 nm波段作為建模的全光譜,1 100個(gè)波長(zhǎng),標(biāo)準(zhǔn)正態(tài)變換(SNV)預(yù)處理方法用來建模。
將SNV預(yù)處理后的紅參提取液的近紅外全光譜數(shù)據(jù),再利用CARS,UVE,SPA和RF四種方法進(jìn)行波長(zhǎng)篩選,從圖3中可以看出來,四種分析方法,篩選出的波長(zhǎng)數(shù)目和分布各不相同。
四種方法篩選出的特征波長(zhǎng)數(shù)目分別為: 57,430,8和10,波長(zhǎng)數(shù)目大幅度下降,從全光譜的1 100個(gè),分別下降為全光譜的5.2%,39.1%,0.7%和0.9%。
2.3.1 不同光譜篩選算法建模效果對(duì)比
利用前面提到的四種特征波長(zhǎng)篩選算法提取的特征波長(zhǎng),分別建立PLS模型,建模效果對(duì)比如表2所示。
圖3 人參皂苷Rg1含量檢測(cè)波長(zhǎng)優(yōu)選分布對(duì)比圖Fig.3 Comparison of optimal detection wavelength distribution of ginsenoside Rg1 content
表2 不同的特征波長(zhǎng)篩選算法PLS模型對(duì)紅參皂苷含量建模及性能評(píng)價(jià)結(jié)果Table 2 Different characteristic wavelength variable selection and performanceevaluation results of red ginsenoside content based on PLS model
從表2對(duì)比可以看出,全光譜經(jīng)UVE,CARS和SPA三種算法篩選后,建模波長(zhǎng)數(shù)目大大降低,簡(jiǎn)化了模型,但精度有所下降; 利用RF算法篩選后,不僅剔除了冗余波長(zhǎng)和干擾變量,建模效率和精度還得到了提高。
為了進(jìn)一步驗(yàn)證和對(duì)比建模的效果,以紅參提取液中含量較高的人參皂苷Rg1為例,將驗(yàn)證集數(shù)據(jù)輸入不同光譜篩選方法下的PLS模型,得到散點(diǎn)圖如圖4所示。
散點(diǎn)圖上點(diǎn)落在對(duì)角線上表示建模預(yù)測(cè)所得的預(yù)測(cè)值和真實(shí)值相同,樣本點(diǎn)值越接近于對(duì)角線說明預(yù)測(cè)結(jié)果越準(zhǔn)確。從圖4可以看出,左下為第二次提取液,右上為第一次提取液,兩次紅參提取液的濃度差距明顯。加入波長(zhǎng)篩選四種方法,建模精度都有所提升,特別是圖4(b) RF-PLS模型的樣本點(diǎn)更接近于對(duì)角線,預(yù)測(cè)能力比其他幾種方法的精度高,并且對(duì)于兩次提取液Rg1含量預(yù)測(cè)RF-PLS建模精度都很高,可以進(jìn)一步證明RF波長(zhǎng)篩選算法是一種有效的近紅外光譜定量分析建模方法。
圖4 不同建模方法人參皂苷Rg1含量預(yù)測(cè)集散點(diǎn)圖Fig.4 Distribution diagrams of ginsenoside Rg1 content predicted by different modeling methods
2.3.2 不同波長(zhǎng)篩選算法的穩(wěn)健性分析
為了對(duì)比不同的波長(zhǎng)篩選算法的穩(wěn)健性,在原始光譜、 全光譜、 SNV預(yù)處理后的全光譜三種光譜數(shù)據(jù)上采用波長(zhǎng)篩選算法進(jìn)行對(duì)比建模,以RF和CARS兩種波長(zhǎng)篩選算法為例,在紅參提取液近紅外建模性能結(jié)果如表3和表4所示。
將表3和表4中數(shù)據(jù)對(duì)比可以看出,對(duì)三種光譜數(shù)據(jù)采用兩種波長(zhǎng)篩選算法建模后,光譜范圍和光譜預(yù)處理方法,對(duì)CARS算法的建模性能影響較大,RPD數(shù)值變化范圍達(dá)2.2以上,對(duì)RF波長(zhǎng)篩選算法變化較小,RF波長(zhǎng)篩選后PLS建模,整體性能都較好,模型評(píng)價(jià)參數(shù)針對(duì)不同的光譜處理跳躍性不大,說明RF算法具有很好的穩(wěn)健性。
表3 RF算法對(duì)不同光譜PLS建模性能評(píng)價(jià)結(jié)果Table 3 PLS modeling and performance evaluation of different spectra based on RF algorithm
表4 CARS算法對(duì)不同光譜PLS建模性能評(píng)價(jià)結(jié)果Table 4 PLS modeling and performance evaluation of different spectra based on CARS algorithm