夏 桐, 劉一偉, 高 遠(yuǎn), 程 杰, 殷 建
山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209
礦石材料包含了復(fù)雜的物質(zhì)信息[1], 發(fā)現(xiàn)和識(shí)別這些信息在眾多應(yīng)用領(lǐng)域, 如行星探測(cè)、 礦物勘探、 以及文化遺產(chǎn)研究等中具有重要意義[2]。 然而, 由于礦物的結(jié)構(gòu)多樣性和復(fù)雜性, 礦物種類的鑒定過(guò)程通常非常復(fù)雜且具有破壞性, 而拉曼光譜因其簡(jiǎn)單、 快速以及無(wú)損[3]等特點(diǎn), 在礦石的分類與鑒別上具有突出的優(yōu)勢(shì)。 因而, 基于拉曼光譜的礦物分類與鑒別成為近年來(lái)的熱點(diǎn)研究與應(yīng)用。
基于拉曼光譜的物質(zhì)分類方法大致可分為兩類: 光譜匹配方法和模型擬合方法。 光譜匹配方法其主要思想是構(gòu)建一個(gè)參考光譜庫(kù), 每次分類需將待檢物的光譜與庫(kù)中參考光譜進(jìn)行逐一匹配, 根據(jù)匹配度確定待檢物的類別。 此方法通常需要依賴人工或匹配軟件, 如CrystalSleuth(https: //rruff.info/about/about_software.php)來(lái)實(shí)現(xiàn)大規(guī)模的光譜匹配; 同時(shí), 由于同種物質(zhì)的光譜也存在差異性, 僅通過(guò)與單一光譜的匹配度難以將礦物進(jìn)行準(zhǔn)確分類[2]。
與光譜匹配方法不同, 模型擬合方法無(wú)需構(gòu)建參考光譜庫(kù)以及進(jìn)行逐項(xiàng)光譜匹配, 而是根據(jù)已知礦物的拉曼特征峰擬合拉曼譜線模型。 用戶使用時(shí), 只需將待檢物的拉曼光譜數(shù)據(jù)輸入拉曼譜線模型, 即可輸出最符合待檢物拉曼特征的礦物類別。 同時(shí), 該方法關(guān)注一類礦物的光譜特征而非單一物質(zhì)的拉曼光譜, 可獲得更為準(zhǔn)確的分類效果。
近年來(lái), 機(jī)器學(xué)習(xí)被廣泛應(yīng)用于擬合模型的構(gòu)建, 如: Ishikawa等[4]基于人工神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)了火山巖礦石的關(guān)鍵礦物準(zhǔn)確分類, 平均分類準(zhǔn)確率達(dá)到了83%; Zhang等[5]基于Bio-Rad的數(shù)據(jù)庫(kù), 采用遷移學(xué)習(xí)方法開(kāi)發(fā)了一種礦石分類模型, 分類準(zhǔn)確率達(dá)到了96.4%; Sattlecker等[6]也證明了SVM模型在拉曼光譜分類問(wèn)題上的優(yōu)良性能。 然而, 上述研究所采用的機(jī)器學(xué)習(xí)模型比較單一, 缺乏具有參考意義的不同模型的綜合比較。
為提供更為全面的模型研究, Jahoda等[7]比較了KNN, SVM, Trees, WN和CNN方法在RRUFF[8]數(shù)據(jù)集上的分類性能, 但是缺少對(duì)RNN、 DNN等深度學(xué)習(xí)方法的驗(yàn)證。 Liu等[9]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的拉曼光譜分類方法, 涉及到眾多模型, 但其研究以深度學(xué)習(xí)模型為主, 缺少對(duì)機(jī)器學(xué)習(xí)方法以及預(yù)處理方法的研究。 該研究認(rèn)為, 在RRUFF光譜數(shù)據(jù)集上, 基于卷積神經(jīng)網(wǎng)絡(luò)的模型分類精度優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法, 且無(wú)需數(shù)據(jù)預(yù)處理過(guò)程, 因而使用門檻更低[9]。 但是, 深度學(xué)習(xí)模型依賴大量訓(xùn)練樣本, 而實(shí)際應(yīng)用中, 同類物質(zhì)的拉曼光譜數(shù)據(jù)樣本通常難以達(dá)到足夠的規(guī)模, 小樣本數(shù)據(jù)集將極大限制基于深度學(xué)習(xí)的模型分類精度。 而傳統(tǒng)機(jī)器學(xué)習(xí)模型可使用少量實(shí)驗(yàn)樣本達(dá)到與大量樣本相近的分類性能[4], 若結(jié)合正確的數(shù)據(jù)預(yù)處理可達(dá)到更為理想的分類效果, 即機(jī)器學(xué)習(xí)對(duì)于小樣本拉曼光譜數(shù)據(jù)分類具有更好的性價(jià)比。 所以, 深度學(xué)習(xí)與傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)基于模型擬合的礦石拉曼光譜分類是各具優(yōu)勢(shì)的。
本文旨在為基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的礦石拉曼光譜模型擬合分類方法提供較為全面和綜合的驗(yàn)證和對(duì)比, 所對(duì)比的模型涵蓋K近鄰(KNN)、 XGBoost、 支持向量機(jī)(SVM)、 隨機(jī)森林(RF)等常用的機(jī)器學(xué)習(xí)算法, 和深度神經(jīng)網(wǎng)絡(luò)(DNN)、 卷積神經(jīng)網(wǎng)絡(luò)(CNN)、 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等深度學(xué)習(xí)算法, 是目前比較全面的礦物拉曼光譜模型擬合分類研究。
為探究適用于礦石拉曼光譜分類問(wèn)題的數(shù)據(jù)預(yù)處理方法, 提高機(jī)器學(xué)習(xí)模型的分類精度, 本文還提出一種新的數(shù)據(jù)預(yù)處理方法, 即: 經(jīng)基線矯正后, 計(jì)算拉曼光譜曲線的多點(diǎn)曲率, 目的是更有效地提取出拉曼光譜的特征峰的位置, 使算法更加關(guān)注特征峰。 本文還基于RRUFF數(shù)據(jù)集測(cè)試了強(qiáng)度曲率以及其他預(yù)處理方法, 如PCA特征降維[10]、 數(shù)據(jù)增強(qiáng)、 歸一化等對(duì)各模型分類效果的影響。
實(shí)驗(yàn)采用RRUFF數(shù)據(jù)集(https: //rruff.info/)。 RRUFF是由亞利桑那大學(xué)建立的一個(gè)開(kāi)源的礦物拉曼光譜數(shù)據(jù)庫(kù), 其目標(biāo)是創(chuàng)建一個(gè)涵蓋地球上所有已知礦物的拉曼光譜數(shù)據(jù)庫(kù), 為基于拉曼設(shè)備的礦物種類鑒定提供數(shù)據(jù)基礎(chǔ)。 RRUFF數(shù)據(jù)庫(kù)中的每個(gè)礦石種類的光譜數(shù)據(jù)均在相同的環(huán)境下采集得到, 即采集同一種礦石的數(shù)據(jù)時(shí)所使用的礦石樣本相同、 采集儀器相同、 采集方式相同, 光譜數(shù)據(jù)所受采集環(huán)境因素影響相對(duì)較小, 因而具有較高的參考價(jià)值[11]。
RRUFF數(shù)據(jù)集根據(jù)是否定向和是否經(jīng)過(guò)預(yù)處理將數(shù)據(jù)整理為四個(gè)數(shù)據(jù)集[5], 實(shí)驗(yàn)選用了經(jīng)過(guò)預(yù)處理且包含不同波長(zhǎng)的非定向標(biāo)準(zhǔn)拉曼光譜數(shù)據(jù)集Excellent_Unoriented, 此數(shù)據(jù)集包含1684種礦石物質(zhì)由不同波長(zhǎng)的激光激發(fā)出的共5244組光譜數(shù)據(jù), 數(shù)據(jù)集中的每條光譜數(shù)據(jù)都通過(guò)Razor庫(kù)(http: //www.spectrumsquare.com)進(jìn)行了基線矯正處理, 基線矯正的內(nèi)容包含消除宇宙射線和邊緣對(duì)齊, 每種礦石的數(shù)據(jù)有1到42條不等, 其中大多數(shù)類別的光譜樣本量小于10, 極少數(shù)類別的樣本量能達(dá)到40條以上, 圖1為實(shí)驗(yàn)數(shù)據(jù)集各類別的樣本量分布情況[9], 橫坐標(biāo)為礦物類別, 包括1 684種礦物, 縱坐標(biāo)為每種礦物類別所包含的數(shù)據(jù)樣本數(shù)量。
圖1 數(shù)據(jù)集中各類礦物的光譜樣本量[9]Fig.1 The number of spectral samples of each mineral in the whole dataset
本文實(shí)驗(yàn)環(huán)境采用Inter Core i7-9700K CPU, NVIDIA GeForece GTX 1070 GPU, 32GB 2133MHz計(jì)算機(jī)內(nèi)存。 系統(tǒng)環(huán)境使用Python 3.7, Numpy, Scipy, Sckit-learn等運(yùn)算庫(kù)[12]; 深度學(xué)習(xí)模型基于TensorFlow 2.2.0后端, Keras 2.4.3框架[13]。
原始數(shù)據(jù)集中每一條光譜數(shù)據(jù)對(duì)應(yīng)一個(gè)礦物樣本及其拉曼光譜曲線, 其中拉曼光譜曲線為拉曼譜線上的二維離散數(shù)據(jù)點(diǎn)的集合。 為方便理解, 將離散點(diǎn)數(shù)據(jù)對(duì)應(yīng)為二維坐標(biāo), 其中, 縱橫坐標(biāo)分別表示光譜強(qiáng)度和拉曼位移。 對(duì)拉曼光譜源數(shù)據(jù)的預(yù)處理包括4個(gè)步驟: 數(shù)據(jù)增強(qiáng)、 插值處理、 強(qiáng)度曲率和歸一化。
1.2.1 數(shù)據(jù)增強(qiáng)
由圖1可以看出, 各類礦石光譜數(shù)據(jù)分布極不均衡, 各類別的樣本數(shù)量差異較大, 這種差異將使機(jī)器學(xué)習(xí)算法可能會(huì)偏向于大樣本類別而忽略小樣本類別, 造成預(yù)測(cè)誤差[14], 為此需進(jìn)行數(shù)據(jù)增強(qiáng)。
采用Liu[9]等提出的隨機(jī)增加小距離位移和疊加高斯噪聲的數(shù)據(jù)增強(qiáng)方法, 即: 對(duì)于需要增強(qiáng)的光譜數(shù)據(jù), 隨機(jī)進(jìn)行不大于1 cm-1距離的左右位移, 在新生成的光譜上疊加均值為0、 方差為0.5的高斯噪聲。 由此, 使原本數(shù)據(jù)樣本低于42條的類別增強(qiáng)到42條。
1.2.2 插值處理
本文將礦物樣本的拉曼光譜曲線作為模型的輸入, 對(duì)應(yīng)的礦物種類作為輸出。 為統(tǒng)一輸入格式, 需對(duì)拉曼曲線進(jìn)行插值處理, 目的是獲得每個(gè)拉曼曲線在一組固定拉曼位移上的強(qiáng)度序列, 即統(tǒng)一光譜曲線的輸入維度。
(1)
1.2.3 強(qiáng)度曲率
拉曼光譜特征峰的位置在拉曼光譜的分類識(shí)別中起到了至關(guān)重要的作用[15]。 基于此, 提出一種數(shù)據(jù)預(yù)處理方法: 將拉曼光譜強(qiáng)度曲線的曲率作為新的輸入特征納入模型訓(xùn)練。
(2)
由于拉曼光譜中特征峰位置對(duì)應(yīng)的強(qiáng)度曲率絕對(duì)值較大, 因而此方法可以更有效地提取出拉曼光譜的特征峰的位置。 圖2展示出同一光譜的原始光譜曲線與強(qiáng)度曲率的對(duì)比, 可以看到拉曼光譜曲線求曲率后特征峰強(qiáng)度變化被放大的效果。
圖2 拉曼光譜強(qiáng)度和拉曼強(qiáng)度曲率Fig.2 Raman spectrum and curvature of Raman spectrum
1.2.4 歸一化
為了盡可能減小由拉曼光譜強(qiáng)度差引起的模型預(yù)測(cè)誤差, 將每條光譜數(shù)據(jù)的拉曼強(qiáng)度進(jìn)行歸一化處理。 對(duì)任意拉曼光譜樣本, 設(shè)其光譜強(qiáng)度的最大值為max, 最小值為min, 將樣本中任意強(qiáng)度為y的拉曼強(qiáng)度歸一化為數(shù)值范圍為[0,1]的強(qiáng)度y*, 歸一化公式如式(3)
(3)
歸一化使模型訓(xùn)練更關(guān)注拉曼強(qiáng)度的強(qiáng)度變化而非強(qiáng)度值的大小, 更有助于模型識(shí)別特征峰。
為實(shí)現(xiàn)拉曼光譜智能分類, 本文選用了目前較為常用的K近鄰(KNN)、 XGBoost、 支持向量機(jī)(SVM)、 隨機(jī)森林(RF)四種機(jī)器學(xué)習(xí)模型和卷積神經(jīng)網(wǎng)絡(luò)(CNN)、 深度神經(jīng)網(wǎng)絡(luò)(DNN)、 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)三種深度學(xué)習(xí)模型。
1.3.1 機(jī)器學(xué)習(xí)模型
對(duì)于四種機(jī)器學(xué)習(xí)模型SVM, XGBoost, KNN和RF, 模型參數(shù)均取多次測(cè)試的最優(yōu)值。 在調(diào)參實(shí)驗(yàn)中, 采用網(wǎng)格參數(shù)輔助函數(shù)得到全部參數(shù)的可選值的所有組合, 對(duì)于每一種組合使用3折交叉驗(yàn)證方法, 每次隨機(jī)選取2條數(shù)據(jù)用于測(cè)試, 最終評(píng)選出預(yù)測(cè)準(zhǔn)確率最高的參數(shù)組合進(jìn)行后續(xù)實(shí)驗(yàn)。 各模型調(diào)參結(jié)果如下:
(1) XGBoost: 學(xué)習(xí)率learning_rate值取為0.2, 決策樹(shù)的個(gè)數(shù)n_estimatores=80, 樹(shù)的深度max_depth=2, 孩子節(jié)點(diǎn)的樣本權(quán)重和最小值min_child_weight=2。
(2) KNN算法: 鄰居的數(shù)量K是唯一影響模型效果的參數(shù), 在當(dāng)前數(shù)據(jù)集上K的最佳取值為1。
(3) 在SVM的多種核函數(shù)中, 線性核函數(shù)對(duì)礦石拉曼光譜分類具有最好的預(yù)測(cè)效果。
(4) RF模型: n_estimators參數(shù)控制模型訓(xùn)練過(guò)程中生成多少棵樹(shù), max_ depth參數(shù)控制每棵樹(shù)的最大深度。 實(shí)驗(yàn)得到的最優(yōu)參數(shù)組合為: n_estimators=35、 max_depth=65。
1.3.2 深度學(xué)習(xí)模型
為探究深度學(xué)習(xí)對(duì)拉曼光譜的分類效果, 本文比較了三種不同的深度學(xué)習(xí)模型, 分別是深度神經(jīng)網(wǎng)絡(luò)(DNN)、 卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。 三類模型均使用“類別交叉熵”作為損失函數(shù), 選擇Adam作為優(yōu)化算法, 輸入特征維度為M, 礦石物質(zhì)類別數(shù)為N。
(1)DNN
借鑒了Zhang等[5]的DNN模型, 共三層全連接神經(jīng)網(wǎng)絡(luò), 結(jié)構(gòu)如圖3所示。 三層全連接神經(jīng)網(wǎng)絡(luò)神經(jīng)元數(shù)分別為M, 2M和N, 第二層后接系數(shù)為0.5的Dropout層, 激活函數(shù)為Tanh, 最后一層激活函數(shù)為Softmax。 學(xué)習(xí)率為0.000 01, 訓(xùn)練100次。
圖3 用于光譜識(shí)別的DNN模型結(jié)構(gòu)示意圖Fig.3 Diagram of the DNN model for spectrum recognition
(2)CNN
借鑒了Lecun等[16]提出的LeNets模型, 如圖4所示, 共五層神經(jīng)網(wǎng)絡(luò)。 由于數(shù)據(jù)樣本量較小, 模型中未使用池化層。 第1層為一維卷積層, 共16個(gè)濾波器, 卷積核大小為9。 第2層為一維卷積層, 有8個(gè)濾波器, 卷積核大小為16。 第3層為一維卷積層, 有4個(gè)濾波器, 卷積核大小為25。 后兩層為全連接層, 神經(jīng)元個(gè)數(shù)分別為2M和N。 第4層后接系數(shù)為0.5的Dropout層。 激活函數(shù)為Relu, 最后一層激活函數(shù)為Softmax。 學(xué)習(xí)率為0.000 01, 訓(xùn)練200次。
圖4 用于光譜識(shí)別的CNN模型結(jié)構(gòu)示意圖Fig.4 Diagram of the CNN model for spectrum recognition
(3)RNN
借鑒了Hochreiter等[17]提出的LSTM模型, 共三層神經(jīng)網(wǎng)絡(luò), 結(jié)構(gòu)如圖5所示, 其中前兩層為L(zhǎng)STM層, 后接系數(shù)為0.5的Dropout層。 最后一層為全連接層, 神經(jīng)元個(gè)數(shù)為N, 激活函數(shù)為Softmax。 學(xué)習(xí)率為0.000 01, 訓(xùn)練200次。
圖5 用于光譜識(shí)別的RNN模型結(jié)構(gòu)示意圖Fig.5 Diagram of the RNN model for spectrum recognition
本節(jié)實(shí)驗(yàn)用來(lái)評(píng)估特征降維、 數(shù)據(jù)增強(qiáng)、 強(qiáng)度曲率以及歸一化4種數(shù)據(jù)預(yù)處理方法的必要性, 將上述方法預(yù)處理前后的各模型分類準(zhǔn)確率作為評(píng)估標(biāo)準(zhǔn)。
為避免實(shí)驗(yàn)的偶然性, 所有實(shí)驗(yàn)的測(cè)試集與訓(xùn)練集均采用隨機(jī)劃分方式, 且所有的實(shí)驗(yàn)結(jié)果都經(jīng)過(guò)5次重復(fù)實(shí)驗(yàn)驗(yàn)證。 為保證參與實(shí)驗(yàn)的每個(gè)類別都包含兩條測(cè)試集并且至少有兩條訓(xùn)練集, 實(shí)驗(yàn)刪除了數(shù)據(jù)集含量少于4條的微小樣本類別。 具體的測(cè)試集劃分方式為: 遍歷所有類別, 每個(gè)類別隨機(jī)抽取兩條數(shù)據(jù)加入測(cè)試集, 剩余數(shù)據(jù)納入訓(xùn)練集。
2.1.1 機(jī)器學(xué)習(xí)模型性能
由于拉曼光譜數(shù)據(jù)作為輸入時(shí)維數(shù)較高, 所以實(shí)驗(yàn)前本文結(jié)合主成分分析(PCA)對(duì)數(shù)據(jù)進(jìn)行特征降維, 目的是過(guò)濾掉原始的高維特征中冗余部分, 提高預(yù)測(cè)效果減少訓(xùn)練時(shí)間[10]。 特征降維前數(shù)據(jù)集的維度是1131, 保留99.9%的方差對(duì)數(shù)據(jù)集進(jìn)行特征降維后, 數(shù)據(jù)集的維度減少到180左右。 其余三種預(yù)處理均按照第一章所述方法, 4種預(yù)處理方法使用前后對(duì)比實(shí)驗(yàn)效果如圖6所示, 縱坐標(biāo)表示每次實(shí)驗(yàn)的測(cè)試集準(zhǔn)確率, 其中, 圖6(a)為PCA處理前后四種機(jī)器學(xué)習(xí)模型的分類準(zhǔn)確率對(duì)比, 圖6(b)為采用原始強(qiáng)度和強(qiáng)度曲率機(jī)器學(xué)習(xí)模型的分類準(zhǔn)確率對(duì)比; 圖6(c)與(d)分別為數(shù)據(jù)增強(qiáng)和歸一化處理前后分類準(zhǔn)確率的對(duì)比。
圖6 數(shù)據(jù)預(yù)處理前(藍(lán))后(粉)的分類準(zhǔn)確率對(duì)比Fig.6 Comparison of classification accuracy before (blue) and after (pink) data preprocessing
由圖6(a)可知, XGBoost和RF模型在結(jié)合PCA特征降維后, 分類效果都有顯著提升; 但PCA特征降維對(duì)KNN和SVM影響不大; 然而, 由于特征降維操作縮短了四種方法的訓(xùn)練時(shí)間, 所以本文認(rèn)為KNN, XGBoost, RF和SVM四種方法均適合采用PCA特征降維。
根據(jù)圖6(b), 強(qiáng)度曲率相對(duì)原始強(qiáng)度對(duì)四種機(jī)器學(xué)習(xí)模型的分類準(zhǔn)確率均有提升, 且XGBoost和KNN提升幅度較大。 此實(shí)驗(yàn)驗(yàn)證了強(qiáng)度求曲率對(duì)基于機(jī)器學(xué)習(xí)的拉曼光譜分類的有效性。
如圖6(c)所示, 數(shù)據(jù)增強(qiáng)對(duì)XGBoost, SVM和RF三種模型的分類準(zhǔn)確度有大幅度提升, 但是對(duì)KNN方法的預(yù)測(cè)效果影響不大。
圖6(d)表明, 經(jīng)過(guò)歸一化處理后, 四種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確率均有大幅度提高。 此實(shí)驗(yàn)也證明了對(duì)于拉曼光譜分類問(wèn)題, 歸一化處理可以顯著提升機(jī)器學(xué)習(xí)模型對(duì)特征峰的提取效果。
表1為以上實(shí)驗(yàn)的數(shù)據(jù)結(jié)果, 經(jīng)過(guò)數(shù)據(jù)預(yù)處理后, 四種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)精度均有18.3%~44.5%的提升, 其中準(zhǔn)確率最高的SVM(linear)達(dá)到了85.8%, 比Liu[9]等的實(shí)驗(yàn)結(jié)果提升了約3.9%。
表1 數(shù)據(jù)預(yù)處理前后不同模型的分類精度Table 1 Classification accuracy on different models when applying data preprocess versus not applying data preprocess
2.1.2 深度學(xué)習(xí)模型性能
深度學(xué)習(xí)模型對(duì)樣本數(shù)據(jù)量和訓(xùn)練次數(shù)均有較大依賴, 數(shù)據(jù)量不足將難以保證深度學(xué)習(xí)模型得到好的訓(xùn)練效果[14]。 為避免微小樣本類別干擾深度學(xué)習(xí)模型的分類效果, 實(shí)驗(yàn)依次刪除了數(shù)據(jù)集中樣本量過(guò)少的類型數(shù)據(jù), 并將經(jīng)過(guò)增強(qiáng)后的數(shù)據(jù)納入模型訓(xùn)練。
圖7為不同樣本數(shù)量下的數(shù)據(jù)增強(qiáng)前后三種深度學(xué)習(xí)模型分類準(zhǔn)確率對(duì)比, 對(duì)于小樣本數(shù)據(jù)集, 各類深度學(xué)習(xí)模型經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后其分類精度均有顯著提升; 隨著樣本量的差距縮小, 該提升幅度也逐漸減小。 由于拉曼光譜數(shù)據(jù)集中大部分類別的樣本量比較少, 若不經(jīng)過(guò)數(shù)據(jù)增強(qiáng), 深度學(xué)習(xí)模型難以充分學(xué)習(xí)到樣本特征, 經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后有更多的樣本可用于模型的訓(xùn)練, 因而分類效果更好。
圖7 數(shù)據(jù)增強(qiáng)前后三種模型的分類精度Fig.7 Classification accuracy of the three models before and after applying data enhancement
本文同樣探究了不同預(yù)處理方法對(duì)深度學(xué)習(xí)模型分類效果的影響, 分別將未經(jīng)過(guò)處理、 歸一化處理、 曲率、 和曲率&歸一化處理后的數(shù)據(jù)集納入構(gòu)建的DNN, CNN和RNN模型進(jìn)行訓(xùn)練, 實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表2, 表3和表4所示, 可以看出, 強(qiáng)度曲率和歸一化處理模型的分類準(zhǔn)確率變化不大, 說(shuō)明深度學(xué)習(xí)模型對(duì)預(yù)處理不敏感, 這與Liu等[9]的研究結(jié)論一致。
表2 樣本數(shù)量、 數(shù)據(jù)預(yù)處理方法對(duì)DNN模型分類準(zhǔn)確率的影響Table 2 The influence of data preprocessing and sample size on the classification accuracy of DNN model
表3 樣本數(shù)量、 數(shù)據(jù)預(yù)處理方法對(duì)CNN模型分類準(zhǔn)確率的影響Table 3 The influence of data preprocessing and sample size on the classification accuracy of CNN model
表4 樣本數(shù)量、 數(shù)據(jù)預(yù)處理方法對(duì)RNN模型分類準(zhǔn)確率的影響Table 4 The influence of data preprocessing and sample size on the classification accuracy of RNN model
實(shí)驗(yàn)所采用的數(shù)據(jù)集中, 存在部分微小樣本類別數(shù)據(jù), 其樣本量?jī)H為1~2條, 對(duì)于這部分類別, 顯然無(wú)法進(jìn)行有效的模型訓(xùn)練。 為此, 本文依次刪除了數(shù)據(jù)量過(guò)少的類別。 為探究每個(gè)類別至少需要多少條數(shù)據(jù)才能達(dá)到預(yù)期的分類效果, 本文設(shè)置了以下實(shí)驗(yàn): 從保留擁有4條數(shù)據(jù)的類別開(kāi)始, 依次刪除數(shù)據(jù)量最少的類別, 每個(gè)類別隨機(jī)選取兩條數(shù)據(jù)加入預(yù)測(cè)集, 其余作為訓(xùn)練集并數(shù)據(jù)增強(qiáng)處理, 將訓(xùn)練集輸入模型進(jìn)行訓(xùn)練, 以模型在測(cè)試集上的預(yù)測(cè)準(zhǔn)確率作為評(píng)估標(biāo)準(zhǔn)進(jìn)行分析。
2.2.1 機(jī)器學(xué)習(xí)模型
表5為四種機(jī)器學(xué)習(xí)模型在保留不同樣本量的數(shù)據(jù)集上的預(yù)測(cè)效果, 表中列出數(shù)據(jù)集所保留的各類別樣本量最小值, 例: “4”表示數(shù)據(jù)集中保留了所有樣本量不少于4條的類別。 為避免實(shí)驗(yàn)的偶然性, 實(shí)驗(yàn)的測(cè)試集與訓(xùn)練集都采用隨機(jī)劃分的方式, 表中數(shù)據(jù)為五次重復(fù)實(shí)驗(yàn)的平均值。
表5 不同樣本數(shù)量下的KNN, XGBoost, SVM, RF模型分類準(zhǔn)確率Table 5 Classification accuracy of KNN, XGBoost, SVM, RF in different sample sizes
由實(shí)驗(yàn)結(jié)果可知, 四種機(jī)器學(xué)習(xí)模型KNN, XGBoost, SVM和RF分別在保留類別最小樣本量為9, 7, 5和6條時(shí)預(yù)測(cè)準(zhǔn)確率達(dá)到90%以上。
對(duì)于樣本量為4條的微小樣本集, SVM結(jié)合PCA特征降維的預(yù)測(cè)效果最好, 達(dá)到85.51%, 其次為RF結(jié)合PCA特征降維, 能夠達(dá)到83.15%。 實(shí)驗(yàn)表明, 刪除微小樣本類別可以提升機(jī)器學(xué)習(xí)方法的預(yù)測(cè)效果, 對(duì)基于機(jī)器學(xué)習(xí)模型的礦石拉曼光譜分類方法, 刪除數(shù)據(jù)量較少的類別是有必要的。
2.2.2 深度學(xué)習(xí)模型
對(duì)于深度學(xué)習(xí)模型, 本文在只經(jīng)過(guò)插值處理的礦石拉曼光譜數(shù)據(jù)集中每個(gè)類別隨機(jī)選擇兩條數(shù)據(jù)加入預(yù)測(cè)集, 其余作為訓(xùn)練集, 從保留含有兩條數(shù)據(jù)的類別開(kāi)始, 依次刪除最少數(shù)據(jù)集的類別, 對(duì)構(gòu)建的深度學(xué)習(xí)模型進(jìn)行測(cè)試, 實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同樣本數(shù)量下的三種深度學(xué)習(xí)模型分類準(zhǔn)確率Table 6 Classification accuracy of DNN, CNN and RNN in different sample sizes
實(shí)驗(yàn)結(jié)果表明, 刪除小樣本類別數(shù)據(jù)后, 深度學(xué)習(xí)模型精度有較大提升, 尤其是當(dāng)刪除樣本數(shù)為9條以下的類別后, DNN, CNN和RNN的識(shí)別精度分別為97.34%, 95.69%和96.83%, 此三種模型中, DNN模型略有優(yōu)勢(shì)。
針對(duì)機(jī)器學(xué)習(xí)方法的礦石拉曼光譜智能分類算法進(jìn)行了較為全面的綜合比對(duì), 比對(duì)的算法包括SVM, XGBoost, RF和KNN傳統(tǒng)機(jī)器學(xué)習(xí)模型和CNN, DNN和RNN深度學(xué)習(xí)模型, 并且測(cè)試了數(shù)據(jù)預(yù)處理與PCA特征降維對(duì)各種分類算法的影響。 實(shí)驗(yàn)結(jié)果表明, 對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)模型, 有效的數(shù)據(jù)預(yù)處理是必要的, 歸一化、 強(qiáng)度曲率等預(yù)處理方法能有效提升模型的分類效果。 深度學(xué)習(xí)算法無(wú)需數(shù)據(jù)預(yù)處理提取特征, 但是對(duì)于微小樣本數(shù)據(jù)集, 數(shù)據(jù)增強(qiáng)是必要的。
經(jīng)過(guò)對(duì)幾種方案的分類準(zhǔn)確度測(cè)試, 目前在RRUFF礦物拉曼光譜數(shù)據(jù)集上分類效果最好的傳統(tǒng)機(jī)器學(xué)習(xí)模型是SVM(linear)模型, 效果最好的深度學(xué)習(xí)模型是DNN。 無(wú)論是機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)模型, 樣本量均為影響模型分類效果的關(guān)鍵因素, 當(dāng)樣本量較大時(shí), 深度學(xué)習(xí)模型的分類效果優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型; 對(duì)于微小樣本, 深度學(xué)習(xí)模型難以發(fā)揮其優(yōu)勢(shì), 對(duì)于此類樣本數(shù)據(jù), 結(jié)合預(yù)處理的機(jī)器學(xué)習(xí)具有更好的容忍性。
采用去尾方式來(lái)降低其對(duì)模型分類效果的負(fù)面影響, 但是微小樣本數(shù)據(jù)有助于模型識(shí)別更多的礦物種類, 接下來(lái)將考慮采用遷移學(xué)習(xí)等方法充分利用這些微小樣本數(shù)據(jù)以提升模型的分類效果。 此外, 礦石成分與結(jié)構(gòu)是礦石分類的重要依據(jù), 結(jié)合礦石成分結(jié)構(gòu)信息進(jìn)行針對(duì)性的特征篩選是提升模型分類效果和特征降維的有效途徑, 所以將礦石成分結(jié)構(gòu)信息融入分類模型是本文后續(xù)研究的另一個(gè)改進(jìn)方向。