張文革 董隴軍 王加闖 龔甦文 羅才嚴 郝晨良 曹 恒
(1.陜西鳳縣四方金礦有限責任公司,陜西 寶雞721000;2.中南大學資源與安全工程學院,湖南 長沙410083)
礦柱是在地下礦山中支撐層狀礦體的柱狀結構,在一定程度上,礦柱穩(wěn)定性直接影響著礦山安全生產。由于礦山內部存在著各種力學特征的礦石、巖體、空區(qū),礦柱作為一種支撐結構顯得尤為重要。如果礦柱不穩(wěn)定,可能導致礦柱的破裂或坍塌,從而引發(fā)礦山地面沉陷、塌陷等災害事故[1],嚴重威脅礦山工作人員的生命安全[2-3]。
從現(xiàn)有進展來看,礦柱穩(wěn)定性風險評估方法可分為數學統(tǒng)計分析分類模型、數值模擬技術及機器學習算法3類。在數學統(tǒng)計分析方法方面,徐恒等[4]從自然條件和人為影響兩個方面建立了基于綜合指數法的礦山穩(wěn)定性評價體系,并將其應用于深部開采隔離礦柱的失穩(wěn)危險性評價中。楊清平等[5]選擇了礦柱安全性的7個主要影響因素作為評價的指標,并引入信息熵理論建立了未確知測度模型。陳順滿等[6]在系統(tǒng)分析礦柱穩(wěn)定性影響因素的基礎上,結合貢獻率確定了各指標權重,并建立了未確知測度模型。由于礦柱失穩(wěn)是復雜的非線性問題[7-8],因此利用上述方法進行礦柱穩(wěn)定性評估過程中,得到的也只能是近似值;另外,對于穩(wěn)定性風險級別的界定有一定的模糊性,僅依靠經驗方法仍存在著模糊性。
數值模擬技術可以利用模擬軟件考慮礦柱的邊界條件和巖體性質,同時也可以對礦山開采設計提供技術支撐[9-10],因此得到了廣泛應用。劉波等[11]采用FLAC3D軟件,從位移等多個方面分析了礦體在外力擾動下水平礦柱的力學效應。李湘洋等[12]基于Voronoi圖和FLAC3D軟件對南溫河鎢礦礦柱安全系數進行了研究。DENG等[13]使用 FEM、神經網絡和可靠性分析方法進行了礦柱優(yōu)化設計。從現(xiàn)有成果來看,數值模擬方法在一定程度上消除了數學方法中的模糊性影響,但由于巖體的復雜力學特征和各向異性,在構建本構模型時仍具有理想化特點,因此該類方法應用依然受限。
隨著機器學習算法的發(fā)展,利用機器學習模型分析礦柱穩(wěn)定性逐漸演化成一種趨勢,特別是機器學習模型計算過程往往具有客觀性,減少了人為因素干擾,增強了評估結果的可靠度。趙國彥等[14]結合高斯過程建立了礦柱狀態(tài)與其主要影響因素之間的映射關系,提出了一種新的礦柱狀態(tài)識別模型。DING等[15]采用隨機梯度提升模型評估礦柱穩(wěn)定性,發(fā)現(xiàn)該模型相較于傳統(tǒng)的機器算法(如隨機森林(RF)、支持向量機(SVM)等)性能更優(yōu)。LIANG等[16]利用梯度提升決策樹(GBDT)、極端梯度提升(XGBoost)等算法模型也開展了礦柱穩(wěn)定性分析。與傳統(tǒng)的數學分析方法和數值模擬方法相比,機器學習方法可以通過挖掘變量與結果之間的隱含映射關系和規(guī)律,更好地處理非線性問題,同時,在一定程度上也可以減少主觀模型誤判風險[17-18]。
為了確保礦山安全、高效和可持續(xù)發(fā)展,開展礦柱的穩(wěn)定性分析具有必要意義。本研究在獲取礦柱穩(wěn)定性分析數據庫的基礎上,選取兩類機器學習算法進行礦柱穩(wěn)定性風險評估,主要包括傳統(tǒng)機器學習算法和以這些算法為元模型的Stacking融合集成模型。首先對獲取的原始數據樣本進行統(tǒng)計分析,并在此基礎上確定訓練集和測試集,通過隨機搜索網格法進行超參數調優(yōu),進一步驗證各類算法的評價性能。最后,為了分析各方法的優(yōu)劣性,選取準確率、召回率、精準率及F1指數作為評價指標,對比確定最優(yōu)的評價方法。
原始數據集合是開展機器學習和樣本分析的基礎,本研究從已有成果[19-22]中選取236組數據進行礦柱穩(wěn)定性分析,這些數據主要來源于Elliot Lake鈾礦、Selebi-Phikwe礦等多家礦山。礦柱穩(wěn)定性樣本數據及統(tǒng)計特征見表1。其中,x1表示礦柱寬度,x2表示礦柱高度,x3表示礦柱寬度和礦柱高度的比值,x4表示單軸抗壓強度,x5表示礦柱受到的平均應力。
表1 礦柱各參數的數學統(tǒng)計特征Table 1 Mathematical statistical characteristics of ore pillar parameters
表1所示各指標在一定程度上可以作為衡量礦柱穩(wěn)定性的指標,包含了礦柱尺寸、強度和載荷大小,同時也反映了礦柱穩(wěn)定性的主要影響因素。礦柱穩(wěn)定性受多種因素影響,包括巖石力學性質、地應力狀態(tài)、開采方法和工藝、礦柱尺寸和形狀等。當這些因素超過了礦柱的承載能力時,礦柱可能會發(fā)生破壞和塌陷,從而導致事故和生產中斷。
由于本研究采用先驗信息的分類算法,即利用已有的先驗知識或先驗概率來指導分類的過程,因此這236組數據的穩(wěn)定性分布是已知的。礦柱穩(wěn)定性可分為3個類別,即穩(wěn)定、不穩(wěn)定和失效3種。其中,穩(wěn)定型礦柱共100組數據,約占總樣本的42.37%,穩(wěn)定型礦柱主要是指礦柱沒有出現(xiàn)因荷載導致的壓裂現(xiàn)象,只有部分巖石輕微剝落;不穩(wěn)定型礦柱共53組數據,約占總樣本的22.46%,不穩(wěn)定型礦柱表明礦柱部分功能失效,礦石剝落現(xiàn)象較為嚴重;失效型礦柱共83組數據,約占總樣本的35.17%,失效型礦柱主要是礦柱上有明顯的裂口,已無法承載過多應力,隨時都可能發(fā)生坍塌事故。樣本數據分布及對應各等級和各因素指標的箱型圖如圖1所示。
圖1 礦柱穩(wěn)定性水平分布及各指標箱型圖Fig.1 Horizontal distribution of ore pillar stability and the box plot of each index
結合圖1及樣本指標分布圖(圖2)可以看出,部分樣本數據比較離散,同時不同級別的指標范圍內存在重疊數據。另外,數據樣本的中值數并不在圖示的中心,即表示樣本具有一定的不平衡性,特別是部分影響因素對應的樣本中仍存在異常值,因此本研究采用SMOTE過采樣方法對原始數據集進行處理。其中,圖1和圖2中的“0”表示穩(wěn)定型礦柱,“1”表示不穩(wěn)定型礦柱,“2”表示失效型礦柱。
圖2 樣本指標分布Fig.2 Distribution of sample indexes
圖3表示樣本指標相關性,是一種用于評估和量化不同指標之間相關性程度的統(tǒng)計方法。通過該方法有助于了解指標之間的關聯(lián)關系,并揭示它們之間的線性關系強度和方向。當相關系數接近-1時,表示指標之間存在強烈的負相關關系,即一個指標增加時,另一個指標減少;當相關系數接近1時,表示指標之間存在強烈的正相關關系,即一個指標增加時,另一個指標也增加;當相關系數接近0時,表示指標之間不存在線性相關關系。對于一個機器學習算法來說,指標間的相關性越大,模型評估和評估精度和穩(wěn)定性都會受到影響,因此,分析特征指標的相關性尤為重要。
圖3 樣本指標相關性Fig.3 Correlation of the sample indexes
由圖3可知:指標x1和x2的相關系數為0.736,主要是兩個參數均表征礦柱尺寸,一般情況下礦柱高度越大,寬度越大,即存在著一定的正相關性。對于x2和x3,由于x3表示礦柱寬度和高度的比值,因此兩個因素間呈負相關性。而對于荷載指標相關的x4及x5指標與x1~x3相關性較小,而x4和x5具有一定的正相關性。從樣本指標分布和樣本指標相關性來看,礦柱穩(wěn)定性評價方法具有一定的復雜性。
礦柱穩(wěn)定性分類模型的構建過程如圖4所示。首先,基于獲取的原始數據樣本進行統(tǒng)計分析,利用SMOTE過采樣方法對數據集進行平衡化處理,處理后的數據集為300組,有助于提升樣本均衡性,減少因樣本不均衡導致的各類問題。在進行過采樣處理后,分別選取數據樣本中的80%作為訓練集,選擇20%作為測試集。其次,分別選取隨機森林算法(RF)、K-近鄰算法(KNN)、支持向量機算法(SVM)、線性判別降維算法(LDA)、多層神經網絡算法(MLPC)及邏輯回歸算法(LR)進行分類計算,并結合Stacking融合策略進行融合。然后,通過隨機搜索算法及五折交叉驗證獲取不同模型中的最優(yōu)超參數,并利用得到的超參數獲取最終的評估模型。最后,選取準確率、召回率、精準率及F1指數作為評價指標,確定最優(yōu)的評估方法。
圖4 礦柱穩(wěn)定性分類模型構建流程Fig.4 Construction process of stability classification model for ore pillar
在分類算法中,通常會將原始數據樣本進行分割,將其分成測試集與訓練集。所謂訓練集,主要是用于訓練模型,即利用先驗經驗數據樣本和標簽促使所采用的訓練模型發(fā)現(xiàn)數據規(guī)律,進而對其他樣本數據進行分析。然而,僅在訓練集上評估模型性能是不夠的,因為模型可能會過于擬合訓練數據,導致在處理新數據上表現(xiàn)不佳。為了衡量模型的泛化能力,需要使用一個獨立的、未在訓練過程中使用過的測試集來評估模型在未知數據上的表現(xiàn)。通過將測試集與訓練集分離,可以更加客觀地評估模型性能。測試集上的結果可以反映出模型對未知數據的分類能力,從而判斷模型是否具有良好的泛化能力。本研究礦柱穩(wěn)定樣本共236組,利用SMOTE算法進行過采樣處理獲取300組數據后,選取80%作為訓練集,保證模型獲取學習特征,之后利用其余的20%樣本測試模型的分類性能。
超參數是在機器學習和深度學習等算法中,會影響算法性能和泛化能力的重要參數,通常不是通過訓練數據學習得到的,而是利用不同手段提前指定的值。調整超參數的過程通常是一種試錯的過程,需要多次訓練和評估模型,并比較它們在驗證集或交叉驗證集上的性能。一些常見的超參數優(yōu)化方法包括網格搜索、隨機搜索、貝葉斯優(yōu)化和遺傳算法等,本研究采用的超參數確定方法為隨機搜索法。該方法通常是對制定的超參數選取一定的取值范圍,通過對不同參數組合進行評估,進而確定最佳的超參數。超參數隨機搜索的優(yōu)勢在于可以在較大的超參數空間中進行搜索,不受回溯法等局部搜索方法的限制。然而,可能需要更多的迭代次數才能找到最佳的超參數組合。因此,隨機搜索通常用于預先探索合適的超參數范圍,并在后續(xù)使用更精細的方法進行調優(yōu)。本研究選取的各算法的超參數及搜索步長、最終確定的超參數值見表2。
分類器的準確率是衡量分類器性能的一個指標,表示分類器在測試數據集上正確分類的樣本數與總樣本數之間的比例,計算公式為
式中,yi為樣本空間中第i個樣本的實際風險等級;為對應樣本空間中第i個樣本的礦柱穩(wěn)定性等級。當標簽等級相同時,說明分類器分類正確,此時sign取值為1;當標簽等級不同時,表示分類器分類錯誤,此時sign取值為0。
混淆矩陣(Confusion Matrix)是一種常用的評估分類算法性能的工具,通常用來解決多分類問題[18]。混淆矩陣是一個二維表格,行表示實際類別,列表示評估和評估類別。它展示了分類模型在測試集中各個類別的評估結果,如表3所示。
表3 混淆矩陣Table 3 Confusion matrix
表3中,TP(True Positive)為真陽性,表示評估為陽性的陽性數,即分類器正確評估為正例的樣本數;FN(False Negative)是假陰性,表示評估為陰性的陽性數;FP(False Positive)是假陽性,表示評估為陽性的陰性數,表示分類器錯誤評估為正例的樣本數,TN(True Negative)是真陰性,表示評估為陰性的陰性數。
精確率(Precision)是用于評估分類模型性能的指標之一,它衡量了分類器評估為正例的樣本中,實際為正例的比例。該指標可進行如下計算:
通常情況下,精確率越高,表示分類器在評估為正例的樣本中,其準確率越高。精確率高意味著分類器更有能力準確地識別出真正的正例,而減少了將負例錯誤分為正例的情況。
召回率表示分類器正確評估的樣本占所有陽性樣本的比例,計算公式為
根據定義分析可知,精準率和召回率指標在極端條件下會比較矛盾,此時需綜合考慮精確率(precision)和召回率(recall)這兩個度量值,F1-score綜合了P和Recall的結果,公式為
在獲取最佳超參數后,需要在不同的算法中確定隨機數種子,本研究所有算法的隨機數種子為89,其主要作用是在機器學習算法中控制偽隨機數的生成,進而確保每次運行程序時生成的隨機數序列是相同的。另外,在獲取最終結果時,本研究選取“macro avg”作為除了準確率以外其他評估指標的最終結果,是通過計算每個類別的指標的平均值得到的。"macro avg"的計算不考慮每個類別的樣本數量,即每個類別被視為同等重要。因此,該值能夠反映出整個模型在各個類別上的性能情況,并且適用于類別不平衡的情況。傳統(tǒng)機器學習算法在進行礦柱穩(wěn)定性評估中的計算結果見表4。
表4 傳統(tǒng)機器學習算法計算結果Table 4 Calculation results of the traditional machine learning algorithms
由表4可知:在準確率方面,SVM算法表現(xiàn)最佳,其次為RF和KNN,SVM算法為0.933 3,LDA和LR表現(xiàn)一般。在精準率方面,SVM仍舊表現(xiàn)最佳且超過0.9,而RF和KNN均高于0.8,LDA表現(xiàn)最差,僅超過0.5。在召回率方面,SVM表現(xiàn)最好依然超過了0.9,RF和KNN超過了0.8。從F1指數來看,仍是SVM表現(xiàn)最佳,F1指數值為0.934 1。從以上計算結果來看,利用傳統(tǒng)機器學習算法對礦柱穩(wěn)定性進行分類評估時,其表現(xiàn)排序為SVM>RF>KNN>MLPC>LR>LDA。
為進一步探究傳統(tǒng)機器學習算法與融合集成算法的優(yōu)異,本研究選擇Stacking集成策略對傳統(tǒng)算法進行集成。Stacking(堆疊)是一種集成學習方法,通常用于提升機器學習模型的性能。該方法主要是將多個基礎模型的評估結果作為輸入,再利用元模型進行堆疊,進而將這些評估結果進行整合,從而獲取新的集成模型。此處有兩個概念比較重要,一個是基模型,即最初的分類模型,通常使用不同的機器學習算法或同一個算法的不同配置來構建基礎模型,可以一種或多種;另一個則是元模型,它的作用是對基礎模型的評估輸出進行進一步的組合和調整,以提高整體模型的評估性能。它可以通過學習不同基礎模型評估的權重、串聯(lián)或并聯(lián)基礎模型等方式來實現(xiàn)評估結果的整合。
基于上述傳統(tǒng)機器學習算法,本研究分別選擇6種算法中的5種算法作為基模型,并將剩余模型作為元模型,則會得到6個Stacking融合模型,融合策略見表5,計算結果如圖5所示。
圖5 Stacking融合策略下的集成學習算法計算結果Fig.5 Calculation results of the ensemble learning algorithms under the Stacking fusion strategy
表5 Stacking算法融合策略Table 5 Fusion strategies of Stacking algorithms
由圖5可知:以隨機森林為元模型的Stacking 1算法表現(xiàn)最佳,準確率、精準率、召回率及F1指數在所有的Stacking集成算法中表現(xiàn)最好,各參數值均超過0.8,與傳統(tǒng)算法中MLPC算法表現(xiàn)接近。以LDA為元模型的Stacking 4算法和以LR為元模型的Stacking 6算法表現(xiàn)接近,單從精準率和準確率來看,Stacking 6表現(xiàn)更好;對比召回率和F1指數,Stacking 4表現(xiàn)略優(yōu)于Stacking 6,但從對比增幅來看,Stacking 6表現(xiàn)更佳,Stacking 5表現(xiàn)略低于這兩種集成模型。以SVM為元模型的Stacking 3算法僅準確率高于以KNN為元模型的Stacking 2,其余指標均低于Stacking 2。從以上分析可知:以Stacking為融合策略的集成模型表現(xiàn)排序為S1>S6>S4>S5>S2>S3。
結合傳統(tǒng)機器學習算法及以各類算法為元模型的Stacking集成模型對比分析可知,S1模型各評價指標僅低于傳統(tǒng)機器學習算法中的SVM。Stacking集成模型中表現(xiàn)最差的S2模型表現(xiàn)仍高于LDA和LR模型。結合兩大類算法模型對應的不同評價指標的平均值來看,以各類算法為元模型的Stacking融合策略下6種模型的各評價指標均高于各傳統(tǒng)機器學習算法。
(1)本研究將機器學習算法和隨機交叉驗證方法引入礦柱穩(wěn)定性分析中,建立了包括傳統(tǒng)機器學習算法(隨機森林算法、K-近鄰算法、支持向量機算法、線性判別降維算法、多層神經網絡算法(及邏輯回歸算法)和Stacking融合策略下的集成模型,通過236組數據的樣本平衡化處理對評價模型進行了分析驗證,結果顯示:傳統(tǒng)機器學習算法中SVM算法、Stacking融合策略下的集成模型以及以隨機森林為元模型的Stacking模型性能較優(yōu)。
(2)結合傳統(tǒng)機器學習算法及以各類算法為元模型的Stacking集成模型對比分析可知,傳統(tǒng)機器學習算法 SVM略優(yōu)于以隨機森林為元模型的Stacking模型。另外,結合兩大類算法模型對應的不同評價指標的平均值來看,以各類算法為元模型的Stacking融合策略下6種模型的各評價指標均優(yōu)于各傳統(tǒng)機器學習算法。可見,Stacking融合策略下的集成算法模型性能相較于各算法對應的元模型整體有所提升。
(3)本研究僅選擇了236組礦柱穩(wěn)定性數據進行分析,數據集相對較小且不平衡,因此部分機器學習算法受數據集數量和質量的影響很大,通過SMOTE過采樣方法對原始數據進行了樣本均衡處理,在一定程度上克服了算法在處理不平衡樣本時表現(xiàn)不佳的不足。從各類模型對應的不同等級評價指標計算結果來看,與其他水平相比,不穩(wěn)定型礦柱計結果表現(xiàn)欠佳,在一定程度上降低了算法整體的評價性能和泛化能力,主要是由于該類樣本數據量較少,也反映出不平衡的數據對分析結果的不利影響。因此,對原始數據樣本進行平衡化處理十分必要。