基于三維熒光光譜特征的中藥藥性模式識別研究

2020-06-13 02:00:12樊鳳杰軒鳳來紀會芳

光譜學與光譜分析 2020年6期

樊鳳杰，軒鳳來，白洋，紀會芳

1.燕山大學電氣工程學院，河北秦皇島 066004 2.聯(lián)勤保障部隊第九八四醫(yī)院，北京 100094

引言

中藥是我國中華民族的瑰寶，經(jīng)過幾千年的積累和研究，中藥在臨床應用中發(fā)揮著巨大的作用。中藥藥性是對中藥性質(zhì)與功能的高度概述，是中醫(yī)藥理論的核心，從整體角度了解和研究中藥藥性，對中醫(yī)藥理論的發(fā)展和傳承具有重大意義。近年來，許多學者在藥性模式識別、中藥藥性組合與藥性及功效的關系、藥性表征模式等領域進行了深入研究[1-3]。王曉燕等采用GC-MS技術對寒熱性藥物進行檢測，通過不同模式識別方法建立了藥性的判別模型[4]。吳思媛等采用RF和SVM等方法對寒熱類中藥進行分類，結果顯示，RF分類正確率為87.5%，SVM分類正確率為92.5%，RPART分類正確率為95.2%[5]。陳昭等借助LS-SVM算法建立了以藥性為基礎的清熱藥分類模型，其正確率達到79.2%[6]。

本文將三維熒光光譜技術應用到中藥藥性模式識別領域，針對光譜數(shù)據(jù)的非線性特征，利用局部線性嵌入算法(local linear embedding，LLE)對寒性和溫性中藥光譜數(shù)據(jù)進行特征提取，并結合隨機森林(random forest，RF)、支持向量機(support vector machine，SVM)分別建立LLE-RF、LLE-SVM分類識別模型，研究不同分類模型對中藥藥性的分類識別效果。

1 基本原理

1.1 LLE算法

LLE算法是針對非線性數(shù)據(jù)的一種降維技術，且能夠使降維后的數(shù)據(jù)保持原有的拓撲結構。該算法是假設高維數(shù)據(jù)集中的每一個數(shù)據(jù)點都可以用它臨近的若干個數(shù)據(jù)點近似線性表示，將整個高維數(shù)據(jù)集分解成若干個具有線性特征的流形區(qū)域，并尋求最優(yōu)權值映射矩陣，來最小化數(shù)據(jù)集重構后的誤差，從而達到降維的目的。LLE算法主要步驟如下：

(1)確定近鄰域，選取近鄰點。采用k鄰域法，以歐式距離為度量標準，選取樣本xi的k個近鄰點；

(2)樣本點局部重構，計算權值矩陣W。確定好K鄰域后，在此鄰域內(nèi)利用xi的近鄰點及xi與近鄰點之間的權值Wij近似表達xi。然后對所有xi做同樣的計算，利用Wij構造局部重建權值矩陣W，并滿足重構誤差ε(w)最小，即

(1)

當xj不屬于xi的K個近鄰點之一時，會出現(xiàn)Wij=0，Wij的第二個約束條件為

(2)

(3)尋求最優(yōu)映射，計算樣本點低維空間輸出。對每個樣本點xi計算高維到低維流行的映射yi，最小化加權誤差ε(y)

(3)

式(3)中具有限制條件

(4)

(5)

1.2 RF算法

隨機森林(random forest,RF)是2001年Breiman提出的，其基本思想是用bootstrap[7]方法從原始樣本中抽取多個子樣本，對每個子樣本進行決策樹建模，再利用投票法或平均法組合多棵決策樹的預測結果來決定最終預測結果。該方法具有更好的噪聲容忍度及更高的預測準確率，且不容易出現(xiàn)過擬合問題[8]。建立RF的具體步驟如下[9-10]：

步驟1：訓練數(shù)據(jù)抽樣。設原始樣本集的大小為N，從原始樣本集中隨機可放回地抽取n個樣本作為新的訓練集。

步驟2：屬性子空間抽樣。隨機地從M個原始屬性中選取m個屬性形成新的屬性子空間。

步驟3：決策樹模型建立。根據(jù)CART算法構建樹，每棵決策樹都完整生長，直到葉子子節(jié)點。

步驟4：利用“森林”中每棵決策樹對測試樣本進行測試，得到T個對應的分類結果。

步驟5：采用投票方法，將T個對應的分類結果中最多的類別作為該測試樣本最終的類別歸屬。

2 實驗部分

光譜數(shù)據(jù)采集儀器為英國Edinburgh Instruments公司生產(chǎn)的FS920型穩(wěn)態(tài)熒光光譜儀，測量時將積分時間設為0.1 s，激發(fā)波長EX掃描范圍220～550 nm，發(fā)射波長EM掃描范圍240～570 nm，激發(fā)波長和發(fā)射波長的采樣波長間隔均為10 nm。選取補虛類中藥23味，23味中藥中只包含寒性和溫性兩類藥性的藥物，因此，本文僅對寒性和溫性藥物進行分析，其中寒性藥物有：百合、玉竹、麥門冬、北沙參、天門冬、桑葚、白芍；溫性藥物有：人參、大棗、白術、山藥、黃芪、黨參、益智仁、肉蓯蓉、補骨脂、菟絲子、沙苑子、斷續(xù)、熟地黃、當歸、龍眼肉、何首烏，將23味中藥分別配制成5組不同濃度(10，8，6，4和2 mg·mL-1)的溶液制劑共115個樣本作為研究對象，利用熒光光譜儀測得每味中藥溶液制劑的熒光光譜數(shù)據(jù)，并獲取每個樣本的等高線圖和三維熒光光譜圖，其中部分樣本的等高線圖和三維熒光光譜圖如圖1和圖2所示。

圖1 樣本三維熒光光譜圖Fig.1 Three-dimensional fluorescence spectra of samples

圖2 樣本等高線圖Fig.2 Contour map of samples

由于受儀器以及外界環(huán)境等因素的影響，使得采集到的中藥三維熒光光譜數(shù)據(jù)中存在一定的噪聲，由圖1和圖2可以看出熒光光譜信號在EX/EM=340 nm/420 nm處存在主熒光峰，在激發(fā)波長240 nm

本文采用近鄰點數(shù)k=12，本征維數(shù)d=7時得到的特征向量進行研究，即將原始中藥熒光光譜數(shù)據(jù)從1 156維降到7維。LLE算法得到的部分樣本的特征向量如表1所示，光譜特征的可視化結果如圖3所示。圖中依次為玉竹、北沙參、白術、龍眼肉的熒光光譜特征。

由圖3可知，不同濃度的玉竹PC4，PC6和PC7的特征值變化明顯，不同濃度的北沙參PC4，PC5和PC6的特征值變化明顯，不同濃度的白術和龍眼肉PC1，PC2，PC4和PC7的特征值變化明顯，且濃度越高特征值都有下降趨勢。將得到的PC1，PC3和PC6特征向量進行三維聚類，結果如圖4所示，PC1代表的特征向量作為x軸，PC6代表的特征向量作為y軸，PC3代表的特征向量作為z軸。由圖4可以看出，僅少數(shù)寒性樣本與溫性樣本有重疊，從整體角度分析，寒性樣本與溫性樣本可以較好的識別出來。

圖3 部分中藥熒光光譜特征(a)：玉竹熒光光譜特征；(b)：北沙參熒光光譜特征；(c)：白術熒光光譜特征；(d)：龍眼肉熒光光譜特征Fig.3 Fluorescence spectrum characteristics of some Traditional Chinese Medicine(a)：Fluorescence spectrum characteristics of yuzhu；(b)：Fluorescence spectrum characteristics of beishashen； (c)：Fluorescence spectrum characteristics of baizhu；(d)：Fluorescence spectrum characteristics of longyanrou

表1 LLE算法得到的特征向量Table 1 Features data extracted from LLE

圖4 LLE部分特征三維聚類Fig.4 Three dimensional clustering of partial features based on LLE algorithm

采用RF分類器對LLE算法提取的寒溫類中藥熒光光譜特征進行分類，將LLE算法得到的特征向量輸入到RF中，構建LLE-RF分類模型，分析不同參數(shù)時LLE-RF分類模型對寒溫類中藥熒光光譜數(shù)據(jù)的分類效果，標記溫性藥物為第一類，寒性藥物為第二類。為了建立較優(yōu)的中藥藥性光譜數(shù)據(jù)分類模型，設置RF分類器中訓練集和測試集的樣本比例分別為3∶1和2∶1，即訓練集的比重r分別為3/4和2/3。對于LLE-RF分類模型，固定分類器中訓練集和測試集樣本的比例，分析LLE中近鄰點數(shù)k取值為7～18，本征維數(shù)d分別取值為6，7，8，9和10時分類正確率變化情況。圖5為當r不同時，LLE-RF模型分類正確率隨近鄰點數(shù)k和本征維數(shù)d變化而波動情況。

圖5 LLE-RF不同比例下分類正確率變化情況(a)：r=3/4；(b)：r=2/3Fig.5 The change of LLE-RF classification accuracy rate，when the ratio r equals 3/4 and 2/3(a)：r=3/4；(b)：r=2/3

由圖5可以看出，當訓練集的比重r一定時，LLE-RF模型分類正確率隨近鄰點和本征維數(shù)變化而波動。針對LLE-RF分類模型，當訓練集和測試集的比例為3∶1和2∶1時，其分類正確率分別為96.6%和95%。其中，當訓練集和測試集的比例為3∶1，近鄰點數(shù)k=12，本征維數(shù)d=7時LLE-RF模型正確率最高，為96.6%，其預測結果如圖6所示。由圖6可以看出，LLE-RF分類模型對寒溫類中藥熒光光譜數(shù)據(jù)分類時有1個樣本識別錯誤，實際類別為第一類(溫性藥物)但被錯誤識別為第二類(寒性藥物)。

圖6 LLE-RF模型預測結果Fig.6 Prediction results of LLE-RF

為驗證LLE-RF分類模型的分類效果，當近鄰點數(shù)k=12，本征維數(shù)d=7時，分別采用多項式、徑向基以及多層感知機核函數(shù)構造LLE-SVM分類模型，將該模型與LLE-RF分類模型的分類正確率進行比較，記訓練集的比重r分別為3/4和2/3，三種核函數(shù)均在默認參數(shù)下構造分類器，分類正確率如圖7所示。

圖7 LLE-SVM不同比例下分類正確率變化情況Fig.7 The change of LLE-SVM classification accuracy rate，when the ratio r equals 3/4 and 2/3

由圖7可以看出，在同一比例r的情況下，采用不同核函數(shù)構造SVM分類器時，寒溫類中藥熒光光譜數(shù)據(jù)分類效果不同。當多層感知機作為核函數(shù)時，分類效果最差。針對LLE-SVM分類模型，當訓練集和測試集的比例分別為3∶1和2∶1時，其分類正確率分別為82.1%和76.3%。因此，當采用LLE提取寒溫類中藥光譜特征，分類器選擇SVM或RF時，設置訓練集和測試集的比例為3∶1時建立的分類模型效果較好，且LLE-RF模型分類正確率高于LLE-SVM分類模型。

3 結論

三維熒光光譜技術應用到中藥藥性識別研究領域具有易檢測、原材料成本低、省時等優(yōu)點。本文基于中藥藥性的熒光光譜特征，將局部線性嵌入算法與隨機森林算法相結合，構建LLE-RF寒溫類中藥熒光光譜分類模型，與LLE-SVM分類模型比較，LLE-RF分類正確率高于LLE- SVM分類模型，具有較好的分類識別效果。該方法為中藥鑒別、中藥質(zhì)量控制以及中藥藥性研究提供思路。在今后的研究中應借助更先進的儀器設備，從多學科、多角度對中醫(yī)藥理論進行研究，促進中醫(yī)藥現(xiàn)代化發(fā)展。