摘要: 以常見的5種巖石薄片作為研究對象構(gòu)建數(shù)據(jù)集, 提出一種新的基于混合專家模型的巖石薄片圖像分類模型. 該模型從薄片圖像中學習到每種巖石圖像的特征, 并對其進行分類. 首先, 使用多個基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer的圖像分類模型(ResNet50,MobileNetV3,InceptionV3,DeiT等)對數(shù)據(jù)進行訓練; 其次, 選取效果較好的模型, 通過構(gòu)建混合專家模型, 得到最終的預(yù)測結(jié)果, 其巖性識別準確率(ACC)和AUC在驗證集上達到85.33%和96.69%, 在測試集上達到87.16%和96.75%; 最后, 通過混合專家模型結(jié)合多個模型, 綜合各模型的優(yōu)勢, 平衡各模型間的貢獻, 提高分類結(jié)果的準確性和魯棒性, 使得到的分類結(jié)果更可靠、 穩(wěn)定.
關(guān)鍵詞: 巖石薄片分類; 混合專家模型; 圖像分類
中圖分類號: TP391" 文獻標志碼: A" 文章編號: 1671-5489(2024)04-0905-10
Classification of Rock Thin Section ImagesBased on Mixture of Expert Model
ZHOU Chengyang1, LIU Wei2, WU Tianrun1, LI Ao1, HAN Xiaosong1
(1. College of Software, Jilin University, Changchun 130012, China;2. CNPC Engineering Technology Ramp;D Company Limited, Beijing 102206, China)
Abstract: We proposed a new classification of rock thin section images based on mixture of expert model by using" five common" rock thin sections as the research object to construct a dataset. The model learned the characteristics of each rock image from the thin section images and classified them. Firstly, multiple image classification models based on convolutional neural network(CNN) and Transformer (such as ResNet50, MobileNetV3, InceptionV3, DeiT, etc.) were used to train the data. Secondly, models with better performance were selected," a mixture of experts model was built to obtain the final prediction result. The" ACC and AUC of lithology recognition reached 85.33% and 96.69% on the validation set and 87.16% and 96.75% on the test set. Finally, by combining a mixture of experts model with" multiple models, combining" advantage of each model," balancing their contributions between each model, we improved the accuracy and robustness of classification results, making the obtained classification results "more reliable and stable.
Keywords: classification of rock thin section; mixture of expert model; image classification
巖石是地殼的主要組成部分, 是由礦物和天然玻璃組成的具有固定外形的穩(wěn)定集合體. 目前, 自然界中已發(fā)現(xiàn)超過3 000種巖石, 如砂巖、 灰?guī)r、 板巖、 花崗巖等. 巖性識別是地質(zhì)學和資源勘探開發(fā)任務(wù)中的一項基礎(chǔ)而重要的工作, 它涉及對巖石的類型、 成分、 結(jié)構(gòu)和成因特征進行判斷和分類. 巖石薄片圖像是巖性識別過程中的重要數(shù)據(jù)來源.
傳統(tǒng)巖性識別過程依賴人工觀察確定巖石的類別等信息, 該過程耗時耗力且依賴于領(lǐng)域知識, 受個人主觀因素影響較大, 識別準確率較低.
隨著計算機科學技術(shù)的不斷發(fā)展, 巖石薄片的圖像識別領(lǐng)域中引入了深度學習的方法.
目前, 對巖石薄片分類的研究已有許多成果. 袁穎等[1]用主成分分析(PCA)方法提取評價指標的主成分, 并通過遺傳算法優(yōu)化支持向量機(SVM), 對火成巖進行了分類訓練; 馬隴飛等[2]用基于GBDT(gradient boosting decision tree)算法的識別模型識別多種泥巖和砂巖, 準確率達92%; 賀金鑫等[3]結(jié)合巖石光譜特征和4種機器學習分類模型進行投票, 對遼寧省興城地區(qū)的經(jīng)典巖石樣本進行分類, 準確率達99.17%; Marmo等[4]通過圖像處理技術(shù)和人工神經(jīng)網(wǎng)絡(luò)(ANN)對碳酸鹽巖薄片進行識別, 識別準確率為93.5%; Singh等[5]采用與文獻[4]相同的方法, 提取27維數(shù)值作為神經(jīng)網(wǎng)絡(luò)的輸入, 對玄武巖薄片圖像的分類精度達92.22%; Chatterjee[6]提出了一種基于SVM的算法, 從原始的189個特征中選擇40個特征作為模型輸入, 對6種石灰?guī)r類型進行識別, 識別準確率達96.2%; Khorram等[7]提出了一個石灰?guī)r分類模型, 將SVM和Bayes技術(shù)用于分類, 實現(xiàn)了在不同采礦階段對巖性進行分類; Mlynarczuk等[8]利用偏振顯微鏡獲取了9種巖石樣本的薄片數(shù)字圖像, 使用4種模式識別方法自動識別巖石樣本.
上述方法大部分將機器學習方法用在巖石類型分類中, 顯示出一定優(yōu)勢. 但這些方法嚴重依賴于研究人員提取的數(shù)字特征質(zhì)量, 直接決定了模型的最終性能. 近年來, 隨著深度學習算法的發(fā)展, 許多研究人員將其應(yīng)用于巖石薄片識別并取得了重大突破. 譚永健等[9]改進了InceptionV3網(wǎng)絡(luò)中卷積操作, 引入殘差連接和遷移學習的思想, 對10類巖石樣本進行分類, 準確率達86%; 許振浩等[10]結(jié)合監(jiān)督目標檢測網(wǎng)絡(luò)以及ResNet-101網(wǎng)絡(luò)對巖石圖像進行遷移學習, 準確率達90.21%; 程國建等[11]利用輕量卷積神經(jīng)網(wǎng)絡(luò)SqueezeNet訓練巖石薄片圖像分類, 在驗證集上的準確率達90.88%; 張野等[12]對InceptionV3模型進行遷移學習, 在巖石巖性分類識別上準確率超過90%; Li等[13]使用改進的TradaBoost算法對不同區(qū)域采集的微觀砂巖圖像進行識別; Polat等[14]利用兩個神經(jīng)網(wǎng)絡(luò)對6種類型的火山巖進行自動分類, 并對4種不同優(yōu)化器的分類效果進行了評價; Dos Anjos等[15]提出了4種卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型, 利用微觀Thin數(shù)學剖面圖像識別了3種巴西鹽下湖相碳酸鹽巖.
目前, 關(guān)于巖石薄片識別的研究已取得了很多成果. 混合專家(mixture of experts, MoE)通過將多個專家模型組合形成一個整體模型, 以利用每個專家模型的優(yōu)勢. 每個專家模型可以專注于解決特定的子問題, 而整體模型則能在復(fù)雜任務(wù)中獲得更好的性能. 本文通過搭建多個基于CNN和Transformer的分類模型, 如ResNet50,MobileNetV3,InceptionV3,DeiT, 使用這些模型在較大數(shù)據(jù)集上的預(yù)訓練參數(shù), 再對每個巖石薄片圖像進行特征學習, 并用于分類任務(wù). 在單模型分類的基礎(chǔ)上, 引入MoE的方法將各模型視為不同專家, 動態(tài)決定哪個專家模型應(yīng)該被激活以生成最佳預(yù)測, 進一步提高巖石薄片圖像分類模型的性能.
1 深度學習方法
1.1 ResNet-50
ResNet-50是一種深度殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[16], 在圖像處理任務(wù)中常用于特征提取, 旨在解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中隨網(wǎng)絡(luò)層數(shù)增加, 由于梯度消失或梯度爆炸導(dǎo)致的網(wǎng)絡(luò)性能飽和或退化問題. 通過引入殘差模塊的概念, 可有效解決上述問題. 在殘差模塊中, 每個輸入有兩個主要路徑: 主路徑和殘差路徑. 主路徑通過若干卷積層學習特征, 而殘差路徑則直接連接主路徑的輸入和輸出, 完成跳躍連接, 將輸入直接添加到主路徑的輸出中, 使信息可直接傳到更深層, 促進信號在向前和向后路徑的傳播. 圖1(A)為一個殘差模塊, 其中主路徑由兩個卷積層組成; 圖1(B)為Resnet-50的網(wǎng)絡(luò)結(jié)構(gòu), 其中有50個卷積層.
1.2 MobileNetV3
MobileNet[17]是一種專為移動設(shè)備和嵌入式設(shè)備設(shè)計的輕量級卷積神經(jīng)網(wǎng)絡(luò)模型, 其目標是在保持較高準確率的同時, 顯著減少網(wǎng)絡(luò)參數(shù)量和計算量.
MobileNet在設(shè)計中提出了一種深度可分離卷積代替?zhèn)鹘y(tǒng)卷積的方案[18], 如圖2所示.
深度卷積階段在每個輸入通道上分別應(yīng)用一個小型的卷積核, 可極大減少計算量. 逐點卷積階段使用1×1的卷積核對深度卷積的結(jié)果進行線性組合, 從而實現(xiàn)通道間的交互和特征融合. 這種深度可分離卷積的設(shè)計使MobileNet在減少參數(shù)量的同時, 仍能保持較高的感受野和表達能力.
MobileNetV3是對MobileNet的改進版本, 網(wǎng)絡(luò)結(jié)構(gòu)列于表1, 參數(shù)量為5.4 M, 其中引入了幾個關(guān)鍵的改進: h-swish激活函數(shù)、 SE通道注意力機制和網(wǎng)絡(luò)架構(gòu)搜索.
h-swish是一種針對MobileNetV3特別設(shè)計的激活函數(shù), 它結(jié)合了線性和非線性特性, 具有高計算效率和模型可訓練性. h-swish通過引入剪切的ReLU函數(shù), 提供了良好的非線性變換和梯度傳播, 增強了網(wǎng)絡(luò)的表達能力和訓練效果. SE通道注意力機制先通過全局平均池化層得到一個通道數(shù)較小的特征向量, 再用全連接層和激活函數(shù)得到一個注意力向量, 最后將注意力向量和原始特征圖相乘, 得到一個經(jīng)過注意力調(diào)整的特征圖. 網(wǎng)絡(luò)架構(gòu)搜索利用強化學習和進化算法等技術(shù), 搜索算法可以在給定的計算約束下, 自動搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù), 其提供了一種高效的方式設(shè)計出性能更好的模型.
1.3 InceptionV3
Inception[19]是一種深度卷積神經(jīng)網(wǎng)絡(luò), 又稱GoogLeNet, 其主要特點是引入了Inception模塊. Inception模塊包含了1×1,3×3和5×5的卷積層以及3×3的最大池化層. 這些操作并行進行, 并在最后通過連接進行組合, 如圖3所示. 為減少計算量, Inception在3×3和5×5的卷積操作前使用1×1的卷積作為瓶頸層進行降維, 有效減少了網(wǎng)絡(luò)的參數(shù)數(shù)量和計算復(fù)雜度. Inception模塊的這種設(shè)計使網(wǎng)絡(luò)在每個層級都能自動學習并適應(yīng)不同尺寸的特征. InceptionV3[20]對于Inception模塊設(shè)計上更復(fù)雜, 引入了更多的卷積和池化操作, 在更小的卷積操作中引入了非線性激活, 以增加模型的表達能力; 并將大卷積核拆分成多個小卷積核, 如將5×5的卷積核拆解成3×3的卷積核, 在保持相同感受野的同時縮小模型數(shù)量, 如圖3(B)所示. 同時, InceptionV3使用了平滑標簽技術(shù).
DeiT(data-efficient image transformer)[21]是一種基于Transformer的視覺圖像分類模型, DeiT給出了一種新的訓練方式, 稱為知識蒸餾(knowledge distillation), 使模型在數(shù)據(jù)較少的情況下也有很好的性能. 知識蒸餾是一種模型訓練技術(shù), 旨在通過傳遞一個大型教師模型的知識訓練一個小型學生模型.
該方法的目標是使學生模型能獲得與教師模型相似的性能, 同時減少學生模型的復(fù)雜性和計算成本, 通過傳遞教師模型的知識, 可以在小型模型上實現(xiàn)接近教師模型性能的效果. DeiT不僅要使學生模型在分類任務(wù)上的輸出接近教師模型的輸出, 而且還要使學生模型在注意力分布上接近教師模型. 通過模仿教師模型的注意力分布, 學生模型可學習到如何聚焦于圖像中的重要部分. DeiT模型結(jié)構(gòu)如圖4所示.
DeiT還引入了一種新的位置編碼方式, 稱為2D相對位置編碼. 這種位置編碼方式考慮了每個patch與其他所有patches在2D空間中的相對位置, 使模型能更好地理解圖像的空間結(jié)構(gòu). 此外, 為進一步提高模型的性能, DeiT還引入了token mixing策略. 在訓練過程中, DeiT會隨機選擇一些圖像區(qū)域, 并對它們進行局部調(diào)整, 從而使模型更好地處理輸入中的局部變化. 這種隨機性的引入可增加模型的魯棒性和泛化能力.
2 巖石薄片圖像分類模型
巖石薄片圖像分類旨在從眾多的巖石薄片圖像中學習到每種巖石圖像的特征, 并對其進行分類. 本文引入混合專家模型的思想, 首先使用多個基于CNN和Transformer的圖像分類模型對數(shù)據(jù)進行訓練, 通過將效果較好的多個單模型進行組合, 綜合各模型的預(yù)測結(jié)果, 從而得到更準確和具有魯棒性的分類結(jié)果, 模型結(jié)構(gòu)如圖5所示.
圖5中藍線框內(nèi)使用多個基于CNN和Transformer的圖像分類模型對數(shù)據(jù)進行訓練, 用這些模型在較大數(shù)據(jù)集上的預(yù)訓練參數(shù), 再對每個巖石薄片圖像進行特征學習, 并用于分類任務(wù). 在驗證集上評估各單模型的性能, 通過對結(jié)果預(yù)測的準確性比較各模型, 選取性能優(yōu)秀的模型后續(xù)使用. 紅線框內(nèi)選擇性能最佳的模型, 先用每個模型對圖像樣本進行分類預(yù)測, 再通過Softmax輸出各類別的概率結(jié)果. 然后通過混合專家模型為選中的每個專家模型分配一個權(quán)重, 通過模型在驗證集上的預(yù)測結(jié)果得到各專家模型在分類任務(wù)中的貢獻進行結(jié)果融合, 尋找混合專家模型中各專家模型的最優(yōu)權(quán)重集合, 最終進行結(jié)果預(yù)測.
2.1 巖石薄片圖像收集與處理
本文巖石薄片圖像數(shù)據(jù)來自中國實物地質(zhì)資料信息網(wǎng)的實物地質(zhì)資料圖像數(shù)據(jù)庫(https://www.cgsi.cn/). 首先對巖石薄片圖像進行分類和統(tǒng)計. 在數(shù)據(jù)庫中選擇3個較大的巖石薄片圖像產(chǎn)地, 共得到1 539組巖石薄片圖像樣本, 其中包含11 370張巖石薄片圖像. 對這些圖像按巖石的名稱進行分類, 統(tǒng)計每個類別中的圖像數(shù)量, 并按數(shù)量進行排序, 結(jié)果列于表2. 巖石薄片圖像如圖6所示.
得到圖像后對圖像進行尺寸調(diào)整, 使其大小一致, 并進行顏色標準化操作, 消除由于不同圖像采集設(shè)備、 光照條件和色彩校準等因素導(dǎo)致的顏色偏差, 以提高模型對圖像特征的識別能力.
為評估分類模型的性能, 將數(shù)據(jù)集按14∶3∶3的比例劃分為訓練集、 驗證集和測試集. 為增加模型的泛化能力, 對訓練集和驗證集中的每張圖片進行隨機裁剪、 旋轉(zhuǎn)、 翻轉(zhuǎn)及顏色抖動等處理, 以生成更多樣的訓練樣本, 擴展數(shù)據(jù)集的多樣性, 并使模型對圖像的變化有更好的適應(yīng)能力.
2.2 單模型巖石薄片圖像分類
搭建多個基于CNN和Transformer的分類模型, 如ResNet50,MobileNetV3,InceptionV3,DeiT. 使用這些模型在較大數(shù)據(jù)集上的預(yù)訓練參數(shù), 再對每個巖石薄片圖像進行特征學習, 并用于分類任務(wù). 對每個模型, 采用端到端的訓練策略. 首先, 將巖石薄片圖像樣本輸入到模型中, 對圖像進行特征提取和表示學習; 其次, 通過反向傳播算法和優(yōu)化方法, 對模型的參數(shù)進行調(diào)整和更新, 使模型能更準確地預(yù)測巖石薄片圖像的類別; 最后, 采用多個模型, 并對不同模型采用不同的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置, 以考察不同模型的特征表示能力和學習能力.
為評估模型性能, 使用交叉熵作為損失函數(shù). 在多類別分類任務(wù)中, 交叉熵損失可衡量模型的預(yù)測結(jié)果與真實標簽之間的差異程度. 通過最小化損失函數(shù), 模型逐漸調(diào)整參數(shù), 提高對巖石薄片圖像的分類準確性. 交叉熵損失函數(shù)的計算公式為
Lt=∑Ni=1ytilog(pti),(1)
其中y表示圖像的真實標簽, N表示圖像的總數(shù)量, L為損失函數(shù)的值.
通過訓練多個單模型, 并計算每個模型對圖像樣本的預(yù)測結(jié)果, 最終獲得多個獨立的分類模型. 這些模型具有不同的架構(gòu)和參數(shù)設(shè)置, 能對巖石薄片圖像的不同特征進行學習和表示.
2.3 混合專家模型巖石薄片圖像分類
在單模型分類的基礎(chǔ)上, 引入混合專家模型進一步提高巖石薄片圖像分類的性能. 通過將效果較好的多個單模型進行組合, 綜合各模型的預(yù)測結(jié)果, 從而得到更準確和具有魯棒性的分類結(jié)果. 混合專家模型的過程主要由一組專家模型和一個門控模型組成. 基本理念是將輸入數(shù)據(jù)根據(jù)任務(wù)類型分割成多個區(qū)域, 并將每個區(qū)域的數(shù)據(jù)分配一個或多個專家模型. 每個專家模型可專注于處理輸入這部分數(shù)據(jù), 從而提高模型的整體性能.
門控模型主要由稀疏門網(wǎng)絡(luò)組成, 它接收單個數(shù)據(jù)元素作為輸入, 然后輸出一個權(quán)重, 這些權(quán)重用于表示不同專家模型在處理輸入數(shù)據(jù)時做出的貢獻, 一般采用Softmax門控函數(shù)通過專家對概率分布進行建模. 例如, 如果模型有3個專家, 輸出的概率可能為0.6,0.3,0.1, 則表示第一個專家對處理此數(shù)據(jù)的貢獻為60%, 第二個專家為30%, 第三個專家為10%.
混合專家模型還包含一組專家模型, 在訓練過程中, 門控模型將輸入的數(shù)據(jù)分配到不同的專家模型中進行處理, 不同的專家被分配到處理不同種類的輸入數(shù)據(jù); 在推理過程中, 被門控選擇的專家會針對輸入的數(shù)據(jù)產(chǎn)生相應(yīng)的輸出. 這些輸出最后會與每個專家模型處理該特征的能力分配的權(quán)重進行加權(quán)組合, 形成最終的預(yù)測結(jié)果. 混合專家模型在訓練過程中通過“因材施教”的思想構(gòu)建門控模型, 進而在推理過程中實現(xiàn)各專家模型的優(yōu)勢. 在混合專家模型中, 處理輸入數(shù)據(jù)時只有少數(shù)專家模型被激活或使用, 而大部分專家模型處于未被激活狀態(tài), 這種狀態(tài)即為稀疏. 稀疏性是混合專家模型的主要優(yōu)點, 也是提升模型訓練和推理過程效率的關(guān)鍵.
圖7為混合專家模型的原理, 一個門控模型用于分配每個專家模型的輸出權(quán)重. 對一個輸入樣本c, 第i個專家模型的輸出為oic, 真實數(shù)據(jù)為dc, 則其損失函數(shù)可表示為
Ec=∑ipci(dc-oci)2,(2)
其中pci表示門控模型分配給每個專家模型的權(quán)重, 將pci放于括號外部使每個專家模型都能單獨計算損失函數(shù), 鼓勵不同的專家模型進行競爭.
每個專家模型都會對圖像樣本進行分類預(yù)測, 并輸出各類別的概率結(jié)果. 通過為每個專家模型分配的權(quán)重表示該模型對最終分類結(jié)果的重要性. 通過驗證集將門控網(wǎng)絡(luò)計算的權(quán)重進行加權(quán)聚合, 每個專家模型的輸出乘以相應(yīng)的權(quán)重, 并將這些加權(quán)的輸出求和, 從而得到最終模型輸出的預(yù)測結(jié)果. 混合專家模型得到的結(jié)果為=1N∑Nt=1ptyt," ∑Nt=1pt=1,(3)
其中p表示每個專家模型對應(yīng)的權(quán)重, y表示每個模型預(yù)測各類別概率的結(jié)果, 表示多個結(jié)果的加權(quán)和, N表示進行加權(quán)的模型數(shù)量.
要求所有模型的權(quán)重之和等于1, 并使最終概率和仍等于1.
在混合專家模型學習的過程中, 通過合理設(shè)置權(quán)重平衡各模型之間的貢獻. 性能更好的模型會被分配更高的權(quán)重, 而性能較差的模型則會被分配較低的權(quán)重. 通過調(diào)整權(quán)重, 可有效結(jié)合各模型的優(yōu)勢, 提高模型整體的分類性能和魯棒性. 通過引入混合專家模型, 可充分利用多個單模型的優(yōu)勢, 其加權(quán)組合機制使模型能在不同的輸入下自適應(yīng)地選擇哪個專家模型能更有利于當前輸入, 從而彌補單個模型的不足, 提高巖石薄片圖像分類的準確性和可靠性.
3 實驗與結(jié)果分析
3.1 實驗環(huán)境與參數(shù)設(shè)計
實驗以Python3.8.10作為編程語言, 以PyTorch作為學習框架, 版本為1.11.0, GPU選擇RTX 3090, 顯存為24 GB, CPU是Intel Xeon Gold 6330, 內(nèi)存為25 GB. 采用分批次訓練方法, 批次大小為64, 所有訓練圖像在模型中完成一次計算即為一次迭代. 網(wǎng)絡(luò)初始學習率為0.001, 衰減步長為10, 衰減因子為0.9.
3.2 評價指標
實驗采用準確率(ACC)和AUC作為評價指標. ACC是衡量模型在所有預(yù)測中正確分類的比例, 假設(shè)TP,TN,F(xiàn)P,F(xiàn)N分別為真正例、 真反例、 假正例、 假反例的數(shù)量, 則ACC的計算公式為
ACC=TPTP+FP.(4)
AUC是基于ROC曲線(receiver operating characteristic curve)計算得出的一個指標, 用于評估模型在不同閾值下的分類性能. 二分類的AUC的計算方式是通過以假正例率(FPR)為橫坐標、 真正例率(TPR)為縱坐標繪制出的ROC曲線下的面積得出. 其中, FPR和TPR的計算公式分別為FPR=FPFP+TN,(5)TPR=TPTP+FN.(6)
多分類的AUC通過計算多個種類的二分類AUC的值平均得出, 計算公式為
AUC=mean(AUC1,AUC2,…,AUCn).(7)
3.3 單模型收斂性實驗
選擇ResNet50,MobileNetV3,InceptionV3,DeiT 4個模型進行訓練, 4個模型在200次迭代中的損失值、 ACC值、 AUC值變化曲線如圖8所示. 由圖8可見, DeiT的效果最好, 在隨機變換后驗證集上的準確率達80%以上, ResNet-50效果最差.
3.4 混合專家模型權(quán)重實驗
構(gòu)建混合專家模型, 觀察使用該方法后模型對巖石薄片的分類預(yù)測準確率對比單模型是否有提升. 由上述實驗結(jié)果可知, ResNet50模型的效果比其他模型相差較多, 并且與其他模型結(jié)構(gòu)的重復(fù)度較高, 故選擇剩余的MobileNetV3,InceptionV3和DeiT作為專家模型構(gòu)建混合專家模型.
由于樣本分布不均勻, 最大類別與最小類別數(shù)據(jù)量約相差6倍, 故選擇AUC最大值作為專家模型的選取, 選擇專家模型后, 分別對經(jīng)過Softmax的結(jié)果進行加權(quán)求和, 在驗證集采用網(wǎng)格搜索的方式尋找混合專家模型中各專家模型最佳的權(quán)重集合, 其中Softmax加權(quán)網(wǎng)格搜索的效果如圖9所示.
由圖9可見,當DeiT,InceptionV3,MobileNetV3的權(quán)重分別為0.67,0.27,0.06時模型效果最好. 對3個專家模型, 構(gòu)建混合專家模型在驗證集上的最佳模型, 混合專家模型和單模型在驗證集和測試集上的測試效果列于表3.
由表3可見, 通過最佳權(quán)重集合構(gòu)建的混合專家模型在測試集和驗證集上的性能均較好, 對比最優(yōu)秀的單一分類模型DeiT, 在驗證集和測試集上的準確率分別高出0.006 2和0.005 1.
實驗結(jié)果表明, 在驗證集上得到的模型在測試集上性能也較好, 可有效增加模型預(yù)測的準確率. 對最終的混合專家模型, 其對測試集的圖像預(yù)測熱力圖如圖10所示, 其中從左到右的類別分別為板巖、 灰?guī)r、 砂巖、 礫巖、 花崗巖. 由圖10可見, 模型對各巖石類別的預(yù)測效果相對較好, 但也存在一些問題. 當預(yù)測標簽為砂巖一列時, 模型可能會將其他類別的圖像錯誤地預(yù)測為砂巖, 這可能是因為砂巖類別在巖石分類中屬于一個廣泛的類別, 包含了多種不同的樣本, 即使部分巖石的名稱被定義為其他巖石, 可能最終類別仍在砂巖類中, 導(dǎo)致模型產(chǎn)生混淆.
綜上所述, 本文基于多個CNN和Transformer的單模型分類器, 通過端到端訓練對巖石薄片圖像進行特征提取和學習, 以預(yù)測巖石的類別. 通過引入構(gòu)建混合專家模型的思想合理設(shè)置權(quán)重, 平衡各模型之間的貢獻, 提高了模型整體的分類性能和魯棒性. 使用中國實物地質(zhì)資料信息網(wǎng)的巖石薄片圖像數(shù)據(jù)庫構(gòu)建數(shù)據(jù)集進行實驗的結(jié)果表明, 在單個模型的預(yù)測準確率達86.65%, 在MoE模型中達87.16%.
參考文獻
[1] 袁穎, 李紹康, 周愛紅. 基于PCA-GA-SVM的火成巖分類方法研究 [J]. 數(shù)學的實踐與認識, 2017, 47(12): 121-128. (YUAN Y, LI S K, ZHOU A H. Research on Igneous Rock Classification Method Based on PCA-GA-SVM [J]. Mathematics Practice and Understanding, 2017, 47(12): 121-128.)
[2] 馬隴飛, 蕭漢敏, 陶敬偉, 等. 基于梯度提升決策樹算法的巖性智能分類方法 [J]. 油氣地質(zhì)與采收率, 2022, 29(1): 21-29. (MA L F, XIAO H M, TAO J W, et al. Lithology Intelligent Classification Method Based on Gradient Boosting Decision Tree Algorithm [J]. Oil and Gas Geology and Recovery Factors, 2022, 29(1): 21-29.)
[3] 賀金鑫, 任小玉, 陳圣波, 等. 融合學習模型的巖石光譜特征自動分類 [J]. 光譜學與光譜分析, 2021, 41(1): 141-144. (HE J X, REN X Y, CHEN S B, et al. Automatic Classification of Rock Spectral Features Based on" Fusion Learning Model" [J]. Spectroscopy and Spectral Analysis, 2021, 41(1): 141-144.)
[4] MARMO R, AMODIO S, TAGLIAFERRI R, et al. Textural Identification of Carbonate Rocks by Image Processing and Neural Network: Methodology Proposal and Examples [J]. Computers amp; Geosciences, 2005, 31(5): 649-659.
[5] SINGH N, SINGH T N, TIWARY A, et al. Textural Identification of Basaltic Rock Mass Using Image Processing and Neural Network [J]. Computational Geosciences, 2010, 14(2): 301-310.
[6] CHATTERJEE S. Vision-Based Rock-Type Classification of Limestone Using Multi-class Support Vector Machine [J]. Applied Intelligence, 2013, 39(1): 14-27.
[7] KHORRAM F, MORSHEDY A H, MEMARIAN H, et al. Lithological Classification and Chemical Component Estimation Based on the Visual Features of Crushed Rock Samples [J]. Arabian Journal of Geosciences, 2017, 10(15): 324-1-324-9.
[8] MLYNARCZUK M, GRSZCZYK A, S'LIPEK B. The Application of Pattern Recognition in the Automatic Classification of Microscopic Rock Images [J]. Computers amp; Geosciences, 2013, 60: 126-133.
[9] 譚永健, 田苗, 徐德馨, 等. 基于Xception網(wǎng)絡(luò)的巖石圖像分類識別研究 [J]. 地理與地理信息科學, 2022, 38(3): 17-22. (TAN Y J, TIAN M, XU D X, et al. Research on Rock Image Classification and Recognition Based on Xception Network [J]. Geography and Geo\|Information Science, 2022, 38(3): 17-22.)
[10] 許振浩, 馬文, 林鵬, 等. 基于巖石圖像遷移學習的巖性智能識別 [J]. 應(yīng)用基礎(chǔ)與工程科學學報, 2021, 29(5): 1075-1092. (XU Z H, MA W, LIN P, et al. Intelligent Identification of Lithology Based on Rock Image Transfer Learning [J]. Journal of Applied Basic and Engineering Sciences, 2021, 29(5): 1075-1092.)
[11] 程國建, 李碧, 萬曉龍, 等. 基于SqueezeNet卷積神經(jīng)網(wǎng)絡(luò)的巖石薄片圖像分類研究 [J]. 礦物巖石, 2021, 41(4): 94-101. (CHENG G J, LI B, WAN X L, et al. Research on Rock Thin Section Image Classification Based on SqueezeNet Convolutional Neural Network [J]. Minerals and Rocks, 2021, 41(4): 94-101.)
[12] 張野, 李明超, 韓帥. 基于巖石圖像深度學習的巖性自動識別與分類方法 [J]. 巖石學報, 2018, 34(2): 333-342. (ZHANG Y, LI M C, HAN S. Automatic Identification and Classification Method of Lithology Based on Deep Learning of Rock Images [J]. Acta Petrologica Sinica, 2018, 34(2): 333-342.)
[13] LI N, HAO H Z, GU Q, et al. A Transfer Learning Method for Automatic Identification of Sandstone Microscopic Images [J]. Computers amp; Geosciences, 2017, 103: 111-121.
[14] POLAT O, POLAT A, EKICI T. Automatic Classification of Volcanic Rocks from Thin Section Images Using Transfer Learning Networks [J]. Neural Computing and Applications, 2021, 33(18): 11531-11540.
[15] DOS ANJOS C E M, AVILA M R V, VASCONCELOS A G P, et al. Deep Learning for Lithological Classification of Carbonate Rock Micro-CT Images [J]. Computational Geosciences, 2021, 25(3): 971-983.
[16] HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[17] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications [EB/OL]. (2017-04-17)[2023-01-10]. https://arxiv.org/abs/1704.04861.
[18] HOWARD A, SANDLER M, CHU G, et al. Searching for Mobilenetv3 [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2019: 1314-1324.
[19] SZEGEDY C, LIU W, JIA Y Q, et al. Going Deeper with Convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9.
[20] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the Inception Architecture for Computer Vision [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 2818-2826.
[21] TOUVRON H, CORD M, DOUZE M, et al. Training Data-Efficient Image Transformers amp; Distillation through Attention [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2021: 10347-10357.
(責任編輯: 韓 嘯)