張衛(wèi)東 李靈巧, 胡錦泉 馮艷春 尹利輝 胡昌勤 楊輝華*,
1(桂林電子科技大學(xué)計算機與信息安全學(xué)院,桂林 541004)2(北京郵電大學(xué)自動化學(xué)院,北京 100876) 3(中國食品藥品檢定研究院,北京 100050)
由于生產(chǎn)工藝、包裝、原材料等形式的差異,不同廠商生產(chǎn)的同一種藥品的質(zhì)量,也有一定差異。對這些差異性的鑒別,在藥品的監(jiān)督中具有重要意義。近紅外光譜分析技術(shù)以其快速、無損、無污染、高效等優(yōu)勢,已廣泛應(yīng)用于疾病診斷、制藥等領(lǐng)域[1~4]。
近紅外光譜分析技術(shù)結(jié)合化學(xué)計量方法已經(jīng)廣泛應(yīng)用于藥品的快速、無損、無污染類別分析。Mbinze等[5]將近紅外光譜與拉曼光譜用于抗瘧藥品的質(zhì)量檢測對比,結(jié)果表明兩種光譜具有同樣好的效果。Storme-Paris等[6]結(jié)合主成分分析法和軟獨立建模分類法,在Fluoxetine和Ciprofloxacin兩種數(shù)據(jù)集上取得了良好效果。Deconinck等[7]利用決策樹構(gòu)建分類器,分別對Viagra和Cialis藥品光譜進行鑒別,分類準(zhǔn)確率83.3%和100.0%,但是該方法沒有對多分類問題進行研究。Anzanello等[8]使用主成分分析(Principal components analysis, PCA)結(jié)合K鄰近算法(K-nearest-neighbour, KNN)和支持向量機(Supporting vector machine, SVM)對Viagra和Cialis進行真假藥品鑒別,結(jié)果表明,SVM優(yōu)于KNN。劉振丙等[9]采用波形疊加的極限學(xué)習(xí)機(Summation wavelet extreme learning machine,SWELM)構(gòu)建分類器模型,以琥乙紅霉素藥品為研究對象,提出一種新的擬合核函數(shù),該方法針對小樣本,而且多分類準(zhǔn)確率不高。Yang等[10]提出引入隨機隱退機制的深度信念網(wǎng)絡(luò)(Dropout-DBN)構(gòu)建分類器,針對琥乙紅霉素藥品及其它藥品的近紅外漫反射光譜進行鑒別,取得了較好的分類效果,但是訓(xùn)練時間太長。由于多分類問題較二分類問題更復(fù)雜,光譜的多類別分類方面的研究目前還較少。
深度學(xué)習(xí)是一種基于無監(jiān)督特征學(xué)習(xí)和提供更高抽象層次的學(xué)習(xí)方法,并成功應(yīng)用在自然語言處理、語音識別和計算機視覺等領(lǐng)域[11~13]。同時,由于其深層的網(wǎng)絡(luò)結(jié)構(gòu)和非線性激活能力,各類深度學(xué)習(xí)模型特別適合高維、非線性的大數(shù)據(jù)建模。深度學(xué)習(xí)已經(jīng)應(yīng)用到近紅外光譜的建模分析[10,14,15]。
堆棧稀疏自編碼(Stacked sparse auto-encoders,SSAE)[16]由多層稀疏自編碼器堆疊組成,采用逐層貪婪訓(xùn)練的方法進行訓(xùn)練,如此重復(fù),以提取更高層次的抽象特征。核極限學(xué)習(xí)機(Kernel extreme learning machine, KELM)[18]引入了核函數(shù)的思想,相對于極限學(xué)習(xí)機 (ELM)[17]算法,具有更強的分類和回歸預(yù)測能力, 并且SSAE和KELM已經(jīng)廣泛應(yīng)用在多個領(lǐng)域[19,20],但在藥品鑒別領(lǐng)域應(yīng)用較少[9,14]。
針對近紅外光譜數(shù)量較小、提取特征有限而且多分類準(zhǔn)確率不高的特點,本研究提出了一種基于SSAE-KELM的近紅外光譜藥品鑒別方法。通過對不同廠商生產(chǎn)的同一包裝形式(鋁塑或非鋁塑)藥品的近紅外光譜數(shù)據(jù)集進行二分類和多分類實驗,驗證SSAE-KELM在準(zhǔn)確率、穩(wěn)定性和訓(xùn)練時間方面的性能,并與ELM、SSAE、BP、SVM及Dropout-DBN方法進行了詳細比較,結(jié)果表明,本方法簡便、有效。
SSAE-KELM的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中前三層是SAE、后三層是KELM,SSAE的輸出作為KELM的輸入,并且在KELM的隱含層中引入了核函數(shù),作為SSAE-KELM模型的輸出。SSAE-KELM是由棧式自編碼與KELM組成的具有深層網(wǎng)絡(luò)結(jié)構(gòu)的算法模型。通過引入核極限學(xué)習(xí)機代替BP神經(jīng)網(wǎng)絡(luò)微調(diào)SSAE,減少了模型的訓(xùn)練步驟、訓(xùn)練參數(shù)以及訓(xùn)練時間,提高了深度學(xué)習(xí)網(wǎng)絡(luò)的實際應(yīng)用能力。其中,SSAE由多個稀疏自編碼疊加組成,用于初始化整個網(wǎng)絡(luò)模型并且從輸入數(shù)據(jù)中學(xué)習(xí)到有用的特征;KELM用于實現(xiàn)分類任務(wù)。對于傳統(tǒng)的棧式自編碼,前一層編碼器的輸出作為下一層編碼器的輸入進行逐層貪婪訓(xùn)練,在預(yù)訓(xùn)練之后,在SSAE的最頂層,加上一個Logistic或者Softmax進行數(shù)據(jù)的二分類或多分類,然后利用傳統(tǒng)的反向傳播算法對整個網(wǎng)絡(luò)進行微調(diào)。而SSAE-KELM中的SSAE舍去了最頂層的分類和微調(diào)過程,采用KELM代替SSAE的頂層結(jié)構(gòu)。由于KELM解決了ELM算法隨機初始化的問題,并且引入了核函數(shù),使得模型具有較好的穩(wěn)健性和快速的學(xué)習(xí)能力。因此,SSAE-KELM相對于傳統(tǒng)的SSAE不僅減少了模型的訓(xùn)練步驟、訓(xùn)練參數(shù)和訓(xùn)練時間,同時提高了模型的分類性能。
特征學(xué)習(xí)階段:
(1)
其中l(wèi)=1,2,…,L, 每一層參數(shù)初始化的自編碼網(wǎng)絡(luò)模型如下:
(2)
核極限學(xué)習(xí)的分類階段:
(3)
在KELM中,無需給出隱含層節(jié)點的特征映射函數(shù),只需確定核函數(shù)k(x,xi)的具體形式,即可求出f(x)的值。對應(yīng)KELM中的核函數(shù),可以選擇徑向基、線性、多項式和感知機核函數(shù)。本研究選擇線性核函數(shù)。在f(x)中的xl-N為SSAE第l層自編碼輸出的Xl,C是正則化參數(shù),K(x,xi)=xTxi是線性核函數(shù)。
本研究的藥品預(yù)測模型SSAE-KELM如圖1所示,其中SSAE用于光譜藥品數(shù)據(jù)的降維和特征提取,KELM用于光譜藥品的鑒別,其中核函數(shù)的引入提高了模型的分類能力。算法的流程如下:(1)將完整的光譜藥品數(shù)據(jù)(2074維)通過歸一化處理,消除光譜數(shù)據(jù)間數(shù)量級的差別,作為SSAE-KELM網(wǎng)絡(luò)的輸入層。(2)將多個SAE網(wǎng)絡(luò)堆疊成SSAE,前一層SAE的輸出作為其后一層SAE的輸入,采用逐層貪婪的方式進行訓(xùn)練,最終將歸一化之后的光譜數(shù)據(jù)通過SSAE進行兩級降維得到200維的光譜特征,作為KELM的輸入。(3)通過KELM對降維后的光譜藥品進行鑒別,其中最優(yōu)的核函數(shù)通過對比試驗選擇,超參數(shù)C和γ通過網(wǎng)格尋優(yōu)的方式獲取。(4)重復(fù)10次實驗,獲取10次實驗的平均結(jié)果,并與其它鑒別方法的實驗結(jié)果進行對比。
圖1 SSAE-KELM神經(jīng)網(wǎng)絡(luò)模型Fig.1 Stacked sparse auto-encoders combine kernel extreme learning machine (SSAE-KELM) neural network model
實驗數(shù)據(jù)由中國食品藥品檢定研究院收集,包括湖南方盛制藥和其它藥廠生產(chǎn)的鋁塑和非鋁塑包裝形式的頭孢克肟片。通過Bruker Matrix光譜儀測定每個樣本在不同波長下的吸光度值得到其光譜曲線,每個光譜數(shù)據(jù)的波長范圍是4000~11995 cm——1,間隔4 cm——1,一條完整的光譜有2074個吸光點。
表1 藥品樣本的詳情
Table 1 Details of the pharmaceutical samples
廠商Manufacturer非鋁塑包裝Non-aluminumplastic packaged鋁塑包裝Aluminumplasticpackaged合計TotalA6356119B5454108C514091D484896共計 Total216198414
NIRs樣品的詳細信息如表1所示。
首先,通過OPUS軟件消除偏移和漂移引起的光譜偏差,獲得414條一致性藥品光譜。如圖2所示,光譜之間相似度較高,重疊嚴(yán)重,信息解析困難。通過對藥品光譜歸一化處理,消除光譜數(shù)據(jù)間數(shù)量級的差別,避免輸入輸出數(shù)據(jù)間數(shù)量級差別較大而影響模型的預(yù)測性能。
在微調(diào)SSAE-KELM的過程中,需要為KELM選擇最佳的核函數(shù)。實驗數(shù)據(jù)來源如表2中的A組數(shù)據(jù)集。在不同規(guī)模的訓(xùn)練集下,不同的核函數(shù)對應(yīng)的二分類準(zhǔn)確率如圖3所示。實驗結(jié)果表明,線性核函數(shù)具有最優(yōu)的分類準(zhǔn)確率。因此在SSAE-KELM中的KELM層選擇線性核函數(shù)。
實驗選擇Deep Learn Toolbox工具箱,軟件開發(fā)平臺MATLABL R2014a。SSAE-KELM的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為2074-400-200-200-2/4,其中第二、三層的網(wǎng)絡(luò)節(jié)點確定,通過調(diào)整隱含層的節(jié)點數(shù)實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。二分類和多分類有相同的預(yù)測過程和預(yù)訓(xùn)練過程。具體過程如下:(1)預(yù)處理:對頭孢克肟片近紅外光譜進行預(yù)處理和歸一化處理。(2)預(yù)訓(xùn)練階段:SSAE-KELM的前三層采用SSAE,其中,SSAE的結(jié)構(gòu)為2074-400-200。在SSAE的訓(xùn)練過程中,迭代次數(shù)是5,兩層的學(xué)習(xí)率為0.05,稀疏參數(shù)0.1,激活函數(shù)為Sigmoid。(3)KELM微調(diào)階段:SSAE-KELM的后三層采用KELM。其中,KELM的結(jié)構(gòu)為200-200-2/4。 在KELM的訓(xùn)練過程中,迭代次數(shù)1,核函數(shù)為線性核,通過網(wǎng)格尋優(yōu)獲取最優(yōu)的C=1,γ=1。 SSAE的輸出作為KELM的輸入,結(jié)合訓(xùn)練樣本對應(yīng)的真實標(biāo)簽微調(diào)SSAE-KELM模型。(4)對比實驗:選擇ELM、SVM、BP、Dropout-DBN和SSAE算法作為對比實驗。其中ELM的結(jié)構(gòu)設(shè)置為2074-train×0.4-2/4(train代表訓(xùn)練樣本個數(shù)),激活函數(shù)為Sigmoid;SVM選擇線性核函數(shù),通過網(wǎng)格尋優(yōu)SVM的核參數(shù)c=1,Gamma=0.3;兩層BP的結(jié)構(gòu)設(shè)置為2074-400-200-2/4,激活函數(shù)為Sigmoid,學(xué)習(xí)率為0.01,迭代次數(shù)為50;Dropout-DBN的結(jié)構(gòu)設(shè)置為2074-400-200-2/4,激活函數(shù)為Sigmoid,兩層的學(xué)習(xí)率均為0.05, Dropout參數(shù)為0.4,迭代次數(shù)為50;SSAE的結(jié)構(gòu)設(shè)置為2074-400-200-2/4,激活函數(shù)為Sigmoid,兩層的學(xué)習(xí)率均為0.01,稀疏參數(shù)0.1,迭代次數(shù)為50。
圖2 藥品樣本的近紅外光譜Fig.2 Near infrared (NIR) spectra of pharmaceutical samples
圖3 不同的核函數(shù)對應(yīng)的分類準(zhǔn)確率Fig.3 Accuracies of classification of different kernel function
為了驗證SSAE-KELM模型對近紅外光譜藥品的鑒別能力,利用此模型分別對不同廠商生產(chǎn)的不同包裝形式的同一種藥品進行二分類和多分類實驗,并與其它方法進行對比評價。
首先,利用指定廠商和其它3個廠商生產(chǎn)的相同包裝形式的同一種藥進行粗糙分類(二類藥品鑒別),驗證SSAE-KELM模型的預(yù)測能力。如表1所示,共收集414個藥品的光譜樣本,本實驗將數(shù)據(jù)集分為二組,A組:取A廠生產(chǎn)的非鋁塑包裝形式的光譜樣本63個,作為負類樣本集; 取其它3個廠商生產(chǎn)的非鋁塑包裝形式的光譜樣本共153個,作為正類樣本集。B組:取A廠生產(chǎn)的鋁塑包裝形式的光譜樣本56個,作為負類樣本集;取其它3個廠商生產(chǎn)的鋁塑包裝形式的光譜樣本共132個,作為正類樣本集。
為了驗證各算法在不同大小數(shù)據(jù)集下的預(yù)測性能,進一步按表2中A、B兩組數(shù)據(jù)集的大小以及正負樣本的比例隨機抽取正負樣本,并獨立構(gòu)造10次訓(xùn)練集和測試集,同時分別對其進行配置。并在此基礎(chǔ)上評測各算法10次運行的平均性能。
同時,采用ELM、BP、Dropout-DBN和SSAE算法作對比實驗。從分類準(zhǔn)確率、算法穩(wěn)定性和訓(xùn)練時間方面評價SSAE-KELM模型在藥品鑒別應(yīng)用中的性能。
如表3所示,針對A、B兩組數(shù)據(jù)集,SSAE-KELM的分類準(zhǔn)確率均高于ELM和SSAE,特別在訓(xùn)練樣本較小的情況下,SSAE-KELM仍然表現(xiàn)出較高的分類準(zhǔn)確率;隨著訓(xùn)練樣本的增加,SSAE-KELM的分類精度能達到100%的穩(wěn)定值,由于核函數(shù)的引入提高了數(shù)據(jù)的線性可分程度,提高了深度學(xué)習(xí)網(wǎng)絡(luò)的實際應(yīng)用能力, SSAE-KELM能夠有效提升模型的分類準(zhǔn)確率。SVM、BP和Dropout-DBN具有較高且相近的準(zhǔn)確率,說明它們復(fù)雜的非線性建模能力較好地適用于二分類問題,但在訓(xùn)練樣本較小的情況下分類能力較弱于SSAE-KELM。而ELM和SSAE不具備非線性建模能力,其預(yù)測能力較差。
表2 針對二分類鑒別訓(xùn)練樣本集的大小配置
Table 2 Size configuration of training sample set for binary-class discrimination
數(shù)據(jù)集Data set訓(xùn)練集總數(shù)Total number oftraining sets負類樣本數(shù)據(jù)Number ofnegative samples正類樣本數(shù)據(jù)Number ofpositive samples數(shù)據(jù)集Data set訓(xùn)練集總數(shù)Total number oftraining sets負類樣本數(shù)據(jù)Number ofnegative samples正類樣本數(shù)據(jù)Number ofpositive samplesA40152560204080255510030701203585140401001604511518050130B301020501535702050902565110308013035951504011017045125
表3 不同比例的訓(xùn)練樣本對應(yīng)的二分類準(zhǔn)確率和訓(xùn)練時間
Table 3 Binary-classification accuracy and training time of different ratios of training samples
數(shù)據(jù)集Data sets訓(xùn)練集/測試集Train/Test data準(zhǔn)確率和訓(xùn)練時間Accuracy andtesting time極限學(xué)習(xí)機ELM支持向量機SVM(Linear)堆棧稀疏自編碼SSAE隨機隱退深度信念網(wǎng)絡(luò)Dropout-DBN兩層的人工神經(jīng)網(wǎng)絡(luò)BP(2 layers)堆棧稀疏自編碼融合核極限學(xué)習(xí)機SSAE-KELMA40/17660/15680/136100/116120/96140/76160/56180/36Testing accuracy (%)84.7694.6486.994.5289.5299.16Training time (s)0.00120.00213.863.89.290.95Testing accuracy (%)82.0299.5990.1399.3293.3799.86Training time (s)0.00140.003214.155.59.420.95Testing accuracy (%)89.5310089.2110095.31100Training time (s)0.00140.004414.247.39.770.96Testing accuracy (%)88.710090.3710097.4100Training time (s)0.0020.006814.569.1110.090.99Testing accuracy (%)95.2298.1890.910097.72100Training time (s)0.00280.008814.7910.9310.261.02Testing accuracy (%)94.1198.8289.799.797.05100Training time (s)0.00320.009415.1512.7610.631.03Testing accuracy (%)92.597.9180.8398.3394.16100Training time (s)0.00380.012215.6315.0311.551.1Testing accuracy (%)96.4210083.5799.2897.85100Training time (s)0.00460.013216.2416.7211.561.11B30/16850/14870/12890/108110/88130/68150/48170/28Testing accuracy (%)90.997.1190.2394.3193.7598.21Training time (s)0.00120.002213.943.89.290.95Testing accuracy (%)96.4198.6991.2196.4193.45100Training time (s)0.00140.003414.215.59.420.95Testing accuracy (%)89.199.649095.5892.35100Training time (s)0.0020.00214.5614.919.770.96Testing accuracy (%)94.3199.2588.3398.9694.31100Training time (s)0.00220.007415.129.1110.090.99Testing accuracy (%)97.210089.6299.7797.91100Training time (s)0.00320.008815.2310.9310.261.02Testing accuracy (%)97.198.8282.1598.8295.88100Training time (s)0.00320.009216.0312.7610.631.03Testing accuracy (%)98.9297.9190.7897.9197.88100Training time (s)0.00380.013416.1815.0311.551.1Testing accuracy (%)92.7799.2886.88100100100Training time (s)0.00480.01416.616.7211.561.11SVM: supporting vector machine; BP: two-layer back propagation neural network; Dropout-DBN: dropout deep belief networks.
在訓(xùn)練時間方面,針對A、B兩組數(shù)據(jù)集,由于SSAE-KELM的分類和微調(diào)階段采用KELM,不需要過多的迭代和反向微調(diào)過程,而SSAE、BP和Dropout-DBN需要BP反向微調(diào)優(yōu)化網(wǎng)絡(luò)模型。因此,SSAE-KELM相對于SSAE、BP和Dropout-DBN具有較大優(yōu)勢。但是由于ELM和SVM不需要在預(yù)訓(xùn)練階段提取光譜特征,所以ELM和SVM在訓(xùn)練時間上具有很大優(yōu)勢。
如圖4所示,針對A、B兩組數(shù)據(jù)集,SSAE-KELM的穩(wěn)定性均優(yōu)于ELM和SSAE,特別在訓(xùn)練樣本較小的情況下SSAE-KELM仍然具有很好的穩(wěn)定性;隨著訓(xùn)練樣本的增加,SSAE-KELM表現(xiàn)出最優(yōu)的穩(wěn)定性,尤其在B組數(shù)據(jù)上,SSAE-KELM具有最優(yōu)的穩(wěn)定性。SVM、BP和Dropout-DBN具有很好的穩(wěn)定性,但弱于SSAE-KELM。
圖4 不同的二分類模型準(zhǔn)確率的標(biāo)準(zhǔn)偏差:(A)測試集A,(B)測試集B。Fig.4 Standard deviatios (STDs) of accuracy of different binary classification models:(A) Testing set A; (B) Testing set B
利用不同廠商生產(chǎn)的相同包裝形式的同一種藥進行精細分類(多類藥品鑒別),驗證SSAE-KELM模型的預(yù)測能力。由表4可見,樣本光譜分為2組4類,取B廠生產(chǎn)的非鋁塑和鋁塑包裝形式的光譜樣本分別作為A組和B組第一類;取其它3個廠商生產(chǎn)的非鋁塑和鋁塑包裝形式的光譜樣本分別作為A組和B組的二、三、四類。
與二分類實驗類似,為了驗證各算法性能,按表5中A、B兩組數(shù)據(jù)集的大小以及正負樣本的比例,隨機抽取正負樣本,并獨立構(gòu)造10次訓(xùn)練集和測試集,同時對其分別進行配置。并在此基礎(chǔ)上評測各算法10次運行的平均性能。
表4 針對多分類鑒別訓(xùn)練樣本集的大小配置
Table 4 Size configuration of training samples for multi-class discrimination
數(shù)據(jù)集Data set訓(xùn)練集總數(shù)Total numberof training sets類別一Class 1(63)類別二Class 2(54)類別三Class 3(51)類別四Class 4(48)數(shù)據(jù)集Data set訓(xùn)練集總數(shù)Total numberof training sets類別一Class 1(58)類別二Class 2(54)類別三Class 3(40)類別四Class 4(48)A40151087602015131280252018171003025232212035302827140403533321604540383718050454342B4015105106020151015802520152010030252025120353025301404035303516045403540
在分類準(zhǔn)確率方面,針對A、B兩組數(shù)據(jù)集,進一步比較各算法在多分類問題(表5)和二分類問題(表3)上的平均準(zhǔn)確率,SSAE-KELM在多分類中優(yōu)勢較為明顯。相對于二分類藥品鑒別,在多分類藥品鑒別中,由于ELM中引入核函數(shù),提高了數(shù)據(jù)的線性可分程度,SSAE-KELM表現(xiàn)出更強的分類能力,而其它算法準(zhǔn)確率有所下降。在訓(xùn)練樣本較小的情況下SSAE-KELM表現(xiàn)出很高的分類準(zhǔn)確率,隨著訓(xùn)練樣本的增加,SSAE-KELM的分類準(zhǔn)確率穩(wěn)定在100%。
表5 不同比例的訓(xùn)練樣本對應(yīng)的多分類準(zhǔn)確率和訓(xùn)練時間
Table 5 Binary-classification accuracy and training time on different ratios of training samples
數(shù)據(jù)集Data sets訓(xùn)練集/測試集Train/Test data準(zhǔn)確率和訓(xùn)練時間Accuracy andtesting time極限學(xué)習(xí)機ELM支持向量機SVM(linear)堆棧稀疏自編碼SSAE隨機隱退深度信念網(wǎng)絡(luò)Dropout-DBN兩層的人工神經(jīng)網(wǎng)絡(luò)BP (2 layers)堆棧稀疏自編碼融合核極限學(xué)習(xí)機SSAE-KELMA40/17660/15680/136100/116120/96140/76160/56180/36Testing accuracy (%)88.9796.5979.0995.5690.2299.2Training time (s)0.00140.00413.561.869.280.949Testing accuracy (%)90.7698.3375.2597.8294.4898.97Training time (s)0.00160.00514.572.89.680.985Testing accuracy (%)93.2399.4179.5598.0896.47100Training time (s)0.00180.00814.863.9110.350.998Testing accuracy (%)91.5599.1386.7298.199.13100Training time (s)0.00220.00914.914.8210.481.035Testing accuracy (%)98.5498.9577.9197.9199.16100Training time (s)0.00220.01315.135.710.541.043Testing accuracy (%)96.5799.7388.4298.4295.52100Training time (s)0.0030.01415.776.4910.851.058Testing accuracy (%)92.51008098.5796.78100Training time (s)0.0040.01815.667.3711.021.075Testing accuracy (%)9010092.2210098.88100Training time (s)0.00480.0216.048.28111.41.103B40/15860/13880/118100/98120/78140/58160/38Testing accuracy (%)74.395.3151.7779.8780.6399.74Training time (s)0.0240.00513.771.939.421.01Testing accuracy (%)76.6697.3956.2390.2880.86100Training time (s)0.00160.00614.292.8710.191.02Testing accuracy (%)81.1895.0867.7988.6488.98100Training time (s)0.00180.00914.563.889.920.99Testing accuracy (%)88.3698.5784.6993.6788.57100Training time (s)0.00240.01114.884.6610.261.02Testing accuracy (%)92.5699.7486.1598.292.56100Training time (s)0.00280.01515.165.5910.461.03Testing accuracy (%)92.7510078.9697.2493.1100Training time (s)0.00320.01915.396.5310.841.06Testing accuracy (%)85.7810078.9499.4797.36100Training time (s)0.0040.02415.857.4711.131.08
在訓(xùn)練時間方面,由于A、B兩組數(shù)據(jù)集較小,相對于二分類訓(xùn)練時間沒有太大變化。SSAE-KELM相對于SSAE、BP和Dropout-DBN具有較大優(yōu)勢,同時,ELM和SVM在訓(xùn)練時間上仍然具有很大優(yōu)勢。
如圖5所示,無論在訓(xùn)練樣本較小還是在訓(xùn)練樣本增加的情況下SSAE-KELM均表現(xiàn)出較好的穩(wěn)定性,而且優(yōu)于其它5種方法。隨著訓(xùn)練樣本的增加,SSAE-KELM表現(xiàn)出最優(yōu)的穩(wěn)定性。
圖5 不同的多分類模型準(zhǔn)確率的標(biāo)準(zhǔn)偏差:(A)測試集A,(B)測試集BFig.5 STDs of accuracy of different multi-class classification:(A) Testing set A; (B) Testing set B
本研究提出了SSAE-KELM藥品光譜鑒別方法,針對不同廠商生產(chǎn)的鋁塑和非鋁塑包裝的頭孢克肟片進行鑒別。通過KELM代替SSAE的Softmax分類和BP微調(diào)階段,減少了模型的迭代次數(shù)、訓(xùn)練步驟、訓(xùn)練參數(shù)以及訓(xùn)練時間,提高了深度學(xué)習(xí)網(wǎng)絡(luò)的實際應(yīng)用能力,核函數(shù)的引入提高了模型的分類能力。針對藥品的近紅外漫反射光譜開展二分類、多分類應(yīng)用研究。結(jié)果表明,SSAE-KELM不但減少了訓(xùn)練時間,而且具有更優(yōu)的分類準(zhǔn)確率和穩(wěn)定性,樣本的數(shù)量和類別越多,優(yōu)勢越明顯。