, , , ,
(1.南京林業(yè)大學輕工與食品學院,江蘇南京 210037;2.第二軍醫(yī)大學藥學院,上海 200433)
藥品現(xiàn)場抽檢是藥品監(jiān)督管理工作中的必要技術(shù)支撐,但傳統(tǒng)的檢測方法存在著費時、步驟繁瑣、破壞樣品以及難以實現(xiàn)在線檢測等缺點,因此如何實現(xiàn)藥品現(xiàn)場高效、快速以及低成本的檢測已經(jīng)成為近年來的研究熱點[1 - 2]。拉曼光譜分析技術(shù)是基于拉曼散射效應(yīng)發(fā)展起來的一種快速檢測方法,主要研究分子的振動與轉(zhuǎn)動信息,與常規(guī)化學分析方法相比,拉曼光譜分析技術(shù)具有檢測時間短、操作簡單、無損等特點[3],因此該技術(shù)在材料、化工、生物、食品等領(lǐng)域的定性定量分析中得到了廣泛的應(yīng)用[4 - 7]。近年來,隨著化學計量學方法和光譜儀器的不斷完善和發(fā)展,拉曼光譜分析技術(shù)在藥品的定性定量分析領(lǐng)域中也取得了諸多成果[8 - 10]。但以往研究中,較少有關(guān)于在藥品拉曼光譜定性判別方面進行綜合比較分析的研究。常用的判別分析方法有很多種,如Fisher判別法[11]、線性學習機(LinearLearningMachine,LLM)、簇類獨立軟模式(SoftIndependentModelingofClassAnalogy,SIMCA)[12]、人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)[13]、K-最鄰近法(K-NearestNeighborMethod,KNN)[14]、貝葉斯(Byes)判別法等,因此選擇能適用于多種藥品拉曼光譜快速、準確分析的判別算法對于用藥安全,以及推廣該技術(shù)在藥品檢測領(lǐng)域的應(yīng)用具有重要的意義。
本研究采用拉曼光譜和4種模式識別算法(SIMCA、KNN、Fisher、LLM)相結(jié)合對藥品進行快速判別分析。首先采集了甲硝唑、消旋山莨菪堿、卡托普利、阿昔洛韋4種片劑共452個藥品的拉曼光譜,在對原始光譜進行預處理和主成分分析(PCA)的基礎(chǔ)上,利用4種算法按照活性藥物成分(ActivePharmaceuticalIngredients,API)建立分類模型,用于藥品API的識別;然后按照上述相同的步驟,分別采用4種算法建立可同時識別藥品API及其生產(chǎn)廠家的分類模型。
R10激光拉曼光譜儀(上海儀電分析儀器有限公司)。激勵波長:785nm;光譜分辨率:8cm-1;波數(shù)范圍:200~2600cm-1;激光最大輸出功率:300mW;積分時間:3000ms。
實驗所用的片劑甲硝唑、消旋山莨菪堿、卡托普利、阿昔洛韋樣品共452個均由上海市食品藥品檢驗所提供,樣品具體信息見表1。由表1可知,若只考慮API分類,樣品集可分為4類;若同時考慮API和生產(chǎn)廠家,則可分為9類。
表1 藥片樣品分布
用刀片將待測藥片切平整以去除包衣,置于稱量紙上,將光譜儀的探頭套上套筒,然后在片劑磨平的一面選取一個點進行光譜采集,采集時激光功率為最大功率的70%,每個點重復測量3次,然后取平均光譜作為該樣品的原始光譜。
本研究數(shù)據(jù)分析采用NIRSA系統(tǒng)以及Matlab2010b軟件平臺。NIRSA系統(tǒng)是本實驗室自主開發(fā)的,專門用于光譜數(shù)據(jù)處理的化學計量學軟件,本研究中主要用于光譜數(shù)據(jù)的預處理以及判別模型的建立。Matlab2010b平臺則主要用于樣本集的劃分及判別效果評價。所建模型的性能通過校正集正確率、預測集正確率和建模所需的主成分數(shù)來綜合評價。
本實驗中,452個樣品分別按照以下兩種方式進行校正集和預測集的劃分:(1)按藥片API劃分。由表1可知,樣品共有4類,其中甲硝唑120個、消旋山莨菪堿124個、卡托普利144個、阿昔洛韋64個,將每類樣品按照3∶1的比例隨機劃分成校正集1(共340個)和預測集1(共112個)。(2)按藥片API及其生產(chǎn)廠家劃分。將上述(1)的校正集和預測集中每類樣品再按照生產(chǎn)廠家進行劃分,則甲硝唑、消旋山莨菪堿和阿昔洛韋又各分為2類,卡托普利可分為3類,因此兩個集合都包含9類藥品,分別命名為校正集2和預測集2。
由于所有樣品的光譜在1 800~2 600 cm-1內(nèi)沒有拉曼峰出現(xiàn),且拉曼強度基本保持在0左右,表明該波段不包含反應(yīng)樣品性質(zhì)的有效信息,因此截取200~1 800 cm-1范圍的光譜用于分析。圖1為波段截取后校正集1中的4種藥品光譜。從圖中可以看出,由于API不同,4種藥品波峰出現(xiàn)的位置和峰的強度都有較大差別,如在1 180 cm-1,甲硝唑具有很強的拉曼譜峰,而其他3種藥品基本沒有吸收。圖2為校正集2中3個廠家生產(chǎn)的卡托普利光譜,可以看出不同廠家生產(chǎn)的同一類藥品的光譜相似度較高,主要差異為峰的強度差異,而拉曼峰所在的位置基本一致。
由于樣品的狀態(tài)、儀器的響應(yīng)、雜散光等因素的影響,所測光譜中除了待測樣品的信息外還包含了其他的背景干擾信息。因此在建立模型時,對光譜進行預處理以消除無關(guān)信息和噪聲是很有必要的[15]。分別采用9點一階微分、7點Savitzky-Golay(SG)卷積平滑、標準正態(tài)變量變換(Standard Normal Variate Transformation,SNV)、多元散射校正(Multiplicative Scatter Correction,MSC)等預處理方法,以及它們的組合對光譜進行預處理,通過多次比較發(fā)現(xiàn),光譜經(jīng)MSC預處理之后的建模效果最好。
2.3.1按API分類按照API進行分類,校正集1和預測集1樣品可分為9類。對340個校正集樣品分別采用4種方法進行建模,預測集中112個樣品用于檢驗模型對未知藥品的識別能力。模型的各項指標如表2所示,其中SIMCA模型中的顯著水平為0.01,KNN模型中的所選取的近鄰樣本的個數(shù)k=5。由表2可知,這4種方法僅需要提取較少的主成分就能使模型的預測正確率達到100%,這是因為4種藥品不同API導致其光譜之間差異較大,所以僅需從原始光譜中提取少量信息就能完全將它們區(qū)分開。因此對于僅考慮API進行分類的情況,這4種模式識別算法均可滿足要求,達到很高的預測精度。
圖1 4種藥品的拉曼光譜Fig.1 The Raman spectra of 4 tablets
圖2 3個廠家的卡托普利的拉曼光譜Fig.2 The Raman spectra of captopril from 3 manufacturers
表2 4個API分類模型預測結(jié)果
2.3.2按API和廠家分類同時考慮API和廠家,以便建立能識別API及其生產(chǎn)廠家的分類模型。以校正集2中的9類340個樣品為研究對象,分別采用4種方法進行建模,并對預測集2中的9類112個樣品進行識別。模型的各項指標如表3所示,其中SIMCA模型中的顯著水平為0.01,KNN模型中的k=13。
表3 考慮廠家的4個API分類模型預測結(jié)果
比較表3和表2可知,兼顧藥品API與生產(chǎn)廠家識別的模型所需的主成分數(shù)明顯增大,4個模型的最優(yōu)主成分數(shù)分別為10、10、11和9,這是因為不同廠家生產(chǎn)的同種API藥品的差異主要體現(xiàn)在輔料上,為了能同時識別藥物類型和生產(chǎn)廠家,因此需要采用更多的主成分從原始光譜中提取足夠的變異信息以利區(qū)分。不過因輔料的干擾,建模集和預測集識別正確率均有不同幅度的下降,其中SIMCA和KNN模型的預測正確率均保持在95%以上,即112個預測集樣品中出現(xiàn)了5個錯判樣品,且錯判僅出現(xiàn)在兩個廠家生產(chǎn)的甲硝唑中;雖然Fisher模型的預測集正確率也達到91.96%,但是其錯判的樣品不僅分布在兩類甲硝唑片中,在其它類別的樣品中也存在;而LLM的預測集判別正確率僅為79.46%,顯然達不到實際應(yīng)用要求。
從藥品拉曼光譜模式空間角度分析,如果只以不同藥品API來劃分,因拉曼峰差異明顯,模式空間類域分布相對簡單,僅用線性的Fisher和LLM分類器即能準確判別。但是當還需要識別同一API藥品的生產(chǎn)廠家時,類域分布趨于復雜,這兩類線性判別函數(shù)已經(jīng)無法準確劃分藥品的模式空間,而KNN算法則可適用于線性不可分體系。盡管SIMCA算法的核心是基于線性變換的PCA,但其對每一類樣品的光譜構(gòu)造主成分回歸模型用于分類,具有更確定的特征判別能力[16]。因此表3中,KNN和SIMCA模型預測正確率明顯高于Fisher和LLM所建模型。Fish算法通過類間與類內(nèi)方差比值最大尋求最佳投影方向,但因僅提取一個投影向量作為類間劃分特征,判別能力欠佳。而LLM算法則按誤差糾正反饋(Error-correction Feedback)法進行訓練從而調(diào)整判別函數(shù)權(quán)重系數(shù),形成的判別面簡單且受數(shù)據(jù)分布限制,在樣本空間線性不可分時,LLM算法建立的分類器也難以很好地工作[16 - 17]。
針對以上同時考慮API和生產(chǎn)廠家分類時4種模型均會出現(xiàn)甲硝唑錯判的情況,本研究通過比較各類樣品光譜之間的相關(guān)系數(shù)進行了進一步探討。表4中列出了9類樣品平均光譜之間的相關(guān)系數(shù)。由表4中9類樣品平均光譜之間的相關(guān)系數(shù)可以看出,1號和9號樣品即兩類甲硝唑之間的相關(guān)系數(shù)最大,達到0.9990,表明這兩種甲硝唑之間的譜圖相似性很高,這可能是由于這兩個廠家生產(chǎn)的甲硝唑不僅API含量相同,而且輔料的種類以及含量差別也很小,所以兩者之間在光譜上的也體現(xiàn)很小差異,從而導致了誤判。
表4 9種藥品平均光譜相關(guān)系數(shù)
通過4種模式識別算法結(jié)合藥品的拉曼光譜對藥物按照API和廠家進行快速分類識別進行了探討。結(jié)果表明:(1)按照藥品API分類時,SIMCA、KNN、Fisher和LLM模型僅需提取較少的主成分就能全部正確預測。 若同時識別藥物API類型和生產(chǎn)廠家,則需要從原始光譜中提取更多的主成分以表征藥品之間的差異,且4種方法所建模型預測正確率均不同幅度下降,其中Fisher和LLM模型的預測精度均不能滿足實際應(yīng)用要求。(2)從模式空間角度分析,僅以藥品API定義的類域分布相對簡單,因此4種方法均具有良好的分類效果;但當不同廠家生產(chǎn)的同種API藥品定義為不同的類時,模式類域空間分布則趨于復雜,此時由Fisher和LLM法生成的線性判別函數(shù)識別效果較差。SIMCA模型充分利用了各類光譜的特征信息,KNN法則具有較好非線性劃分能力,更能適用于藥品的拉曼光譜快速判別分析,這對于藥品的監(jiān)督管理工作具有重要的現(xiàn)實意義。(3) SIMCA和KNN模型對于不同廠家生產(chǎn)的甲硝唑出現(xiàn)誤判是因為二者光譜差異性很小。對于如何識別出不同廠家生產(chǎn)的同種API藥品拉曼光譜之間的這種微小差異還有待對算法的進一步改進和研究。