溫廷新,蘇煥博
(遼寧工程技術(shù)大學(xué) 工商管理學(xué)院,遼寧 葫蘆島 125105)
隨著煤礦開采深度和強(qiáng)度不斷增加,高瓦斯、高地應(yīng)力作用下引起的煤與瓦斯突出動力災(zāi)害事故頻發(fā)[1]。該類事故作為煤礦開采過程中1種極其復(fù)雜的瓦斯動力現(xiàn)象,是破壞力極強(qiáng)、危害性極大的災(zāi)害之一,伴隨著大量瓦斯涌出,嚴(yán)重威脅到礦工的健康和安全,造成采掘設(shè)施破壞,影響煤礦的安全生產(chǎn)[2-3]。因此,如何科學(xué)、準(zhǔn)確地預(yù)測煤與瓦斯有、無突出危險性對煤礦的安全生產(chǎn)具有重要意義。
關(guān)于煤與瓦斯突出預(yù)測問題,國內(nèi)外學(xué)者開展了大量研究[4-8]。傳統(tǒng)方法主要包括鉆屑指標(biāo)、綜合因素預(yù)測、地球動力學(xué)劃分等。隨著煤礦精準(zhǔn)智能開采概念的提出,研究者越來越多地關(guān)注數(shù)學(xué)模型預(yù)測方法[4-5]。鄭曉亮等[4]提出采用數(shù)據(jù)挖掘多重填補(bǔ)(Multiple Imputation,MI)方法填補(bǔ)缺失數(shù)據(jù),并將填補(bǔ)后數(shù)據(jù)采用支持向量機(jī)(Support Vector Machine,SVM)預(yù)測煤與瓦斯突出;Ru等[5]首次提出利用相關(guān)系數(shù)實(shí)時填補(bǔ)缺失數(shù)據(jù),根據(jù)Pauta準(zhǔn)則完成異常數(shù)據(jù)識別,處理后利用隨機(jī)森林(Random Forest,RF)模型實(shí)現(xiàn)煤與瓦斯突出預(yù)測。近年來,數(shù)據(jù)挖掘技術(shù)快速發(fā)展,學(xué)者們提出了很多改進(jìn)算法,試圖在現(xiàn)有數(shù)據(jù)基礎(chǔ)上提高煤與瓦斯突出預(yù)測性能[4],He[6]建立的粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)優(yōu)化反向傳播(Back Propagation,BP)算法預(yù)測模型;韓永亮等[7]的遺傳算法(Genetic Algorithm,GA)優(yōu)化極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)預(yù)測模型;謝國民等[8]采用果蠅優(yōu)化算法(Fruit Fly Optimization Algorithm,F(xiàn)OA)優(yōu)化支持向量機(jī)建立預(yù)測模型等。上述模型均顯著提高了煤與瓦斯突出的預(yù)測精度,然而仍存在部分可改進(jìn)的內(nèi)容:現(xiàn)有預(yù)測模型大多默認(rèn)的數(shù)據(jù)集是完整的,而在數(shù)據(jù)傳輸和融合過程中,數(shù)據(jù)易丟失,且部分有突出的數(shù)據(jù)難以收集,數(shù)據(jù)存在缺失,導(dǎo)致可用有突出數(shù)據(jù)太少,其預(yù)測精度易受原始數(shù)據(jù)的影響。整體上看,對煤與瓦斯有、無突出危險性預(yù)測時,對數(shù)據(jù)集優(yōu)化預(yù)測精度的提高通常會高于對算法改進(jìn)帶來的提高,但單獨(dú)對數(shù)據(jù)集優(yōu)化或?qū)λ惴ǜ倪M(jìn)均很難避免方法自身局限性,影響模型預(yù)測效果。GA算法優(yōu)化函數(shù)需調(diào)節(jié)參數(shù)較多,其收斂速度有待提高,PSO,F(xiàn)OA算法收斂速度快但易陷入局部最優(yōu);采用SVM,BP等算法預(yù)測,泛化能力較弱,一定程度上降低預(yù)測性能。
鑒于此,本文擬提出1種鏈?zhǔn)街С窒蛄繖C(jī)的多重插補(bǔ)(Multiple Imputation by Chained Support Vector Machine,MICE_SVM)方法對煤與瓦斯突出預(yù)測數(shù)據(jù)集中缺失數(shù)據(jù)進(jìn)行插補(bǔ),高精度地增大可用數(shù)據(jù)集;選用跳出局部最優(yōu)能力較強(qiáng)的鯨魚優(yōu)化算法(Whale Optimization Algorithm,WOA)優(yōu)選極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)的輸入層權(quán)值及隱含層閾值,提高全局搜索能力并加快收斂速度,提高算法的泛化能力,即將數(shù)據(jù)集優(yōu)化和算法改進(jìn)結(jié)合使用,建立基于MICE_SVM-WOA-ELM的煤與瓦斯突出預(yù)測模型,與其他模型對比分析,驗證該模型的有效性及穩(wěn)定性,以期為煤與瓦斯突出預(yù)測方面提供1種新的方法。
科學(xué)研究中,數(shù)據(jù)缺失會減少原始數(shù)據(jù)有價值的信息量,導(dǎo)致估計效率降低,易得出誤導(dǎo)性結(jié)論[9],是需要解決的主要問題之一。對于煤與瓦斯突出數(shù)據(jù),由于實(shí)際事故發(fā)生次數(shù)較少,部分指標(biāo)數(shù)據(jù)難以收集,為增大可用數(shù)據(jù)集,提高煤與瓦斯突出預(yù)測準(zhǔn)確性,對缺失數(shù)據(jù)插補(bǔ)顯然是不可忽略的。
缺失數(shù)據(jù)插補(bǔ)是最常用于處理缺失數(shù)據(jù)集問題的方法,常用的插補(bǔ)技術(shù)分為基于統(tǒng)計分析和基于機(jī)器學(xué)習(xí)2種類型。在統(tǒng)計分析領(lǐng)域,學(xué)者們做了大量的研究工作,并提出了許多有效的插補(bǔ)方法[4]。鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)(Multiple Imputation by Chained Equations,MICE)方法就是其中1種,該方法是1種特殊的多重插補(bǔ)技術(shù),鏈?zhǔn)椒匠虅t是一個形象稱謂,實(shí)際上具體算法由一系列模型組成,任何能夠推理的預(yù)測模型都可作為插補(bǔ)模型用在MICE中[10]。理論上,眾多方法中多重插補(bǔ)是最完善的,但并沒有1個多重插補(bǔ)算法適用于所有缺失問題,需對具體問題提出合適的插補(bǔ)算法[10]。對煤與瓦斯突出預(yù)測中缺失數(shù)據(jù)插補(bǔ)時,是通過數(shù)據(jù)集中其他指標(biāo)數(shù)據(jù)預(yù)測有效值,當(dāng)指標(biāo)數(shù)據(jù)出現(xiàn)異常值時,會缺乏處理能力,影響預(yù)測有效值的效果。機(jī)器學(xué)習(xí)中,SVM在回歸任務(wù)中通過將新的個體映射到同一高維空間中,并基于它們落在最大間隔超平面內(nèi)來預(yù)測有效值[9],使其受到異常的噪聲數(shù)據(jù)影響較小,且文獻(xiàn)[11]表明運(yùn)用模型與多重插補(bǔ)相結(jié)合的方法插補(bǔ)效果更好。因此,選用SVM作為插補(bǔ)模型,應(yīng)用到MICE中,構(gòu)造MICE_SVM缺失數(shù)據(jù)插補(bǔ)算法,其插補(bǔ)過程如圖1所示。
圖1 MICE_SVM方法插補(bǔ)過程
由圖1可知,MICE_SVM算法插補(bǔ)過程包含插補(bǔ)、分析和匯總3個步驟,具體過程:
步驟1:svm.svr()函數(shù)利用非缺失數(shù)據(jù)對原始矩陣中的缺失值進(jìn)行插補(bǔ)得到m個(默認(rèn)m=5)完整數(shù)據(jù)集。
步驟2:with()函數(shù)分別對每個完整集采用數(shù)據(jù)分析方法分析,得到不同的結(jié)果列表。
步驟3:pool()函數(shù)將上一步得到的結(jié)果按照最優(yōu)原則整合為1組結(jié)果,得到最終的完整數(shù)據(jù)集。
ELM是1種基于前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。該算法隨機(jī)初始化所有輸入層與隱含層間連接權(quán)值w及隱含層神經(jīng)元閾值b,選擇任意1個激活函數(shù)計算隱含層輸出,通過簡單的矩陣計算確定隱含層與輸出層間連接權(quán)值。傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)是通過梯度下降法更新參數(shù),計算復(fù)雜度高,學(xué)習(xí)速度慢,與其相比較,ELM學(xué)習(xí)速度更快,計算復(fù)雜度低,泛化性能高。然而,ELM的w和b是隨機(jī)生成的,在對煤與瓦斯突出預(yù)測時,其泛化能力不足以處理訓(xùn)練過程中未出現(xiàn)的非線性復(fù)雜樣本,故擬選用操作簡單、參數(shù)優(yōu)化效果較好的WOA算法優(yōu)化選取ELM的w和b,進(jìn)一步提高ELM對煤與瓦斯突出預(yù)測效果。
WOA是基于座頭鯨氣泡網(wǎng)狩獵行為推演出的1種尋求全局最優(yōu)化的群體智能算法。氣泡網(wǎng)狩獵行為融合了座頭鯨收縮包圍獵物和螺旋狩獵2種方式的局部開發(fā)能力,以及隨機(jī)搜索獵物的全局尋優(yōu)能力。與其他智能優(yōu)化算法比較,WOA算法操作簡易、需調(diào)整的參數(shù)少、跳出局部最優(yōu)的能力強(qiáng)、收斂速度快,且能夠提升優(yōu)化后算法效果,在函數(shù)優(yōu)化方面具有一定優(yōu)勢。利用WOA對ELM的w和b進(jìn)行優(yōu)化,將每條鯨魚個體看作1種優(yōu)化策略,將鯨魚位置維度設(shè)置為ELM算法待優(yōu)化的參數(shù)數(shù)目,在鯨魚不斷更新自身位置的過程中得到ELM算法的最優(yōu)參數(shù)組合。
WOA算法優(yōu)選ELM參數(shù)的步驟為:
1)設(shè)定ELM隱藏層神經(jīng)元數(shù)目l,隱藏層激活函數(shù)f(x),隨機(jī)初始化輸入層權(quán)值w和隱藏層閾值b。
2)設(shè)置WOA算法參數(shù),包括種群規(guī)模S,最大迭代次數(shù)t和鯨魚個體空間維度K等參數(shù)。
3)隨機(jī)初始化種群各個體二維位置,其位置是有關(guān)ELM參數(shù)w和b的K維向量,如式(1)。
K=g×l+l
(1)
式中:K為待優(yōu)化參數(shù)個數(shù);g為輸入層神經(jīng)元個數(shù)。
4)令鯨魚種群迭代次數(shù)t=0,選用均方誤差作為適應(yīng)度函數(shù)如式(2),計算初始鯨魚種群中各個體的適應(yīng)度值并進(jìn)行比較,選取適應(yīng)度值最小的個體所代表的狀態(tài)記作Wbest。
(2)
式中:k為第k個訓(xùn)練集樣本;N為訓(xùn)練集樣本數(shù)目;M為類別數(shù)目;yk為預(yù)測值;ck為實(shí)際值。
5)將迭代次數(shù)加1,更新WOA算法參數(shù)A,C等值,產(chǎn)生一個[0,1]區(qū)間內(nèi)的隨機(jī)數(shù)p。分別計算每個個體下一步的位置,當(dāng)|A|<1,p<0.5時,則通過對獵物包圍來更新位置如式(3);當(dāng)|A|<1,p≥0.5時,則個體螺旋式更新位置如式(4);反之,當(dāng)|A|≥1時,則個體根據(jù)式(5)隨機(jī)搜索獵物。計算上述3種行為對應(yīng)的適應(yīng)度值并比較,選取最優(yōu)適應(yīng)度值對應(yīng)的最佳位置作為鯨魚個體下一個位置,同時更新種群中最優(yōu)個體所代表的狀態(tài)Wbest,i,并與Wbest進(jìn)行對比,更新Wbest。
X(t+1)=X*(t)-A·|CX*(t)-X(t)|
(3)
X(t+1)=D′eblcos(2πl(wèi))+X*(t)
(4)
X(t+1)=Xrand-A·|CXrand-X(t)|
(5)
式中:D′表示包圍獵物階段步長;X(t+1)表示下一次迭代后候選解的位置向量;t為當(dāng)前迭代次數(shù);X*(t)表示當(dāng)前最優(yōu)解的位置向量;X(t)表示當(dāng)前候選解的位置向量;A和C為系數(shù)向量;D′=|X*(t)-X(t)|;b為常數(shù),定義了對數(shù)螺線的形狀;l為[-1,1]間的隨機(jī)數(shù);Xrand為隨機(jī)位置向量。
6)個體迭代尋優(yōu),當(dāng)達(dá)到最大迭代次數(shù)時,停止迭代,得到適應(yīng)度值最優(yōu)個體。否則,重復(fù)步驟5)。
7)輸出WOA優(yōu)化后的w和b,利用最優(yōu)參數(shù)訓(xùn)練ELM,對煤與瓦斯數(shù)據(jù)集建立預(yù)測模型。
本文提出的缺失數(shù)據(jù)下基于MICE_SVM的WOA-ELM煤與瓦斯突出預(yù)測流程如圖2所示。
圖2 煤與瓦斯突出預(yù)測流程
煤與瓦斯突出表現(xiàn)為1種強(qiáng)烈的復(fù)雜的非線性動力過程,受多種因素綜合影響。其中,瓦斯含量、瓦斯壓力、煤的堅固性系數(shù)等是影響煤與瓦斯突出的主要因素。煤層中瓦斯含量、瓦斯壓力影響著煤與瓦斯發(fā)生突出時強(qiáng)度大小,瓦斯含量越高,壓力越大,發(fā)生突出可能性就越大;煤的堅固性系數(shù)是用來反映煤體對抗未知外力的綜合性參數(shù)指標(biāo),其值越小,則發(fā)生突出的危險性就越大。除上述介紹的影響指標(biāo)外,還有其他指標(biāo),王剛等[12]指出瓦斯含量對煤與瓦斯突出的影響最大,其次是瓦斯擴(kuò)散系數(shù)、瓦斯壓力和孔隙率;鄭曉亮[13]得到煤層堅固性系數(shù)、孔隙率和瓦斯放散初速度對瓦斯的解吸速度和是否能形成一定壓力有較大影響。
綜上所述,本文以淮南朱集礦區(qū)為背景,考慮到瓦斯擴(kuò)散系數(shù)檢測困難,且檢測數(shù)值誤差較大,故選用以下5個因素作為煤與瓦斯有無突出預(yù)測影響指標(biāo):瓦斯含量X1,m3/t;瓦斯壓力X2,MPa;孔隙率X3,%;煤層堅固性系數(shù)X4和瓦斯放散初速度X5,mL/s。
選用鄭曉亮[13]的淮南朱集礦實(shí)測煤與瓦斯樣本數(shù)據(jù),其中無突出71組(無缺失數(shù)據(jù)),有突出62組(有缺失數(shù)據(jù)),有突出數(shù)據(jù)統(tǒng)計描述見表1。
表1 原始有突出數(shù)據(jù)描述統(tǒng)計
62組煤與瓦斯有突出數(shù)據(jù)中,有35組無數(shù)據(jù)缺失,27組部分?jǐn)?shù)據(jù)缺失。缺失數(shù)據(jù)的影響指標(biāo)包括X3,X4,X5,其中指標(biāo)X4缺失最多,為15組。該數(shù)據(jù)集缺失率達(dá)到了24.19%,當(dāng)缺失率大于15%時,需插補(bǔ)處理。若僅選用無缺失的35組數(shù)據(jù)對煤與瓦斯突出進(jìn)行預(yù)測,數(shù)據(jù)量少,模型訓(xùn)練不充分,導(dǎo)致預(yù)測準(zhǔn)確率降低。本文的煤與瓦斯有突出數(shù)據(jù)的缺失為非單調(diào)缺失,利用提出的MICE_SVM方法實(shí)現(xiàn)缺失數(shù)據(jù)插補(bǔ),而后將插補(bǔ)后數(shù)據(jù)用于預(yù)測模型的訓(xùn)練和測試。
為驗證MICE_SVM插補(bǔ)方法更具優(yōu)勢,選取常用的插補(bǔ)方法,包括均值法(Mean)、支持向量機(jī)法(Support Vector Machine,SVM)、K最近鄰法(K Nearest Neighbor,KNN)、隨機(jī)森林法(Random Forest,RF)和蒙特卡羅馬氏鏈方法(Markov Chain Monte Carlo,MCMC),與MICE_SVM方法對比。
缺失數(shù)據(jù)插補(bǔ)性能的評估主要基于預(yù)測準(zhǔn)確度PAC和分布準(zhǔn)確度DAC 2個評估指標(biāo)[14]。PAC主要通過Pearson相關(guān)系數(shù)r和均方誤差RMSE來驗證插補(bǔ)效果,其中,r用來度量插補(bǔ)結(jié)果值與實(shí)際值間的差異,r接近1,表明插補(bǔ)技術(shù)是有效的;RMSE則用來描述插補(bǔ)結(jié)果值與真實(shí)值間的密切關(guān)系,RMSE值越小,表明插補(bǔ)效果越好[14]。DAC則表示維持?jǐn)?shù)據(jù)值真實(shí)分布的能力,使用Kolmogorov-Smirnov距離評估,將K-Sstatistic和K-Sp-value統(tǒng)計量作為參考分布的累積分布函數(shù)間的距離,若K-Sstatistic很小或K-Sp-value很大,則表明缺失數(shù)據(jù)插補(bǔ)前、后具有相同的分布,插補(bǔ)效果更好。6種插補(bǔ)方法評估指標(biāo)結(jié)果比較見表2。
由表2可知,MICE_SVM插補(bǔ)方法的PAC和DAC 2個評估指標(biāo)結(jié)果均最優(yōu)。結(jié)果表明:MICE_SVM方法對煤與瓦斯突出中缺失數(shù)據(jù)插補(bǔ)更具優(yōu)勢。
表2 不同插補(bǔ)方法的效果對比
WOA-ELM模型的參數(shù)設(shè)置:S為50,t為100,K為90,激活函數(shù)選用Sigmoid函數(shù)。優(yōu)化選取ELM隱藏層神經(jīng)元數(shù)目對提高ELM算法預(yù)測準(zhǔn)確率至關(guān)重要,隱藏層神經(jīng)元數(shù)目過多或過少,均會影響ELM的學(xué)習(xí)能力。故借鑒“試錯法”思想,采用不同的隱藏層神經(jīng)元數(shù)目訓(xùn)練ELM,其取值區(qū)間為[1,30],分別計算對應(yīng)訓(xùn)練集的均方誤差并進(jìn)行比較。為提高模型預(yù)測準(zhǔn)確率,快速收斂到最優(yōu)值,最終選取的最優(yōu)隱藏層神經(jīng)元數(shù)目l為15。
為驗證WOA優(yōu)化算法可有效提高全局搜索能力并加快收斂速度,采用GA,PSO和WOA分別優(yōu)化ELM,尋優(yōu)迭代100次,其適應(yīng)度值變化情況如圖3所示。其中GA的參數(shù)設(shè)置:S=50,t=100,K=5、交叉概率為0.8、變異概率為0.05;PSO參數(shù)設(shè)置:S=50,t=100,K=5,c1為1.5,c2為2.5。
圖3 GA,PSO與WOA優(yōu)化ELM的適應(yīng)度對比
由圖3可知,PSO-ELM較GA-ELM收斂速度更快,且具有更小的適應(yīng)度值;WOA-ELM較PSO-ELM具有跳出局部最優(yōu)能力更強(qiáng)的優(yōu)勢,且以更快的速度收斂到最小的適應(yīng)度值0.035 2,提高了全局尋優(yōu)能力,表明WOA優(yōu)化ELM優(yōu)勢明顯。
為驗證MICE_SVM方法插補(bǔ)數(shù)據(jù)的有效性,構(gòu)造插補(bǔ)前和插補(bǔ)后2種試驗數(shù)據(jù)集,采用ELM算法分別對2種數(shù)據(jù)集預(yù)測并比較預(yù)測結(jié)果,將試驗數(shù)據(jù)集隨機(jī)劃分為80%訓(xùn)練集和20%測試集。插補(bǔ)前,無突出71組,無缺失的有突出35組,從中分別隨機(jī)選取57組和28組用于算法訓(xùn)練,其余數(shù)據(jù)用于測試。插補(bǔ)后,無突出數(shù)據(jù)71組,有突出數(shù)據(jù)62組,從中分別隨機(jī)選取57組和49組用于算法訓(xùn)練,其余數(shù)據(jù)用于測試。隨機(jī)選取易導(dǎo)致每次訓(xùn)練和測試樣本不同,會對結(jié)果造成較大差異,為減小試驗誤差,重復(fù)試驗20次,結(jié)果取均值[7]。數(shù)據(jù)插補(bǔ)前、后煤與瓦斯有、無突出的預(yù)測結(jié)果見表3。
由表3可知,缺失數(shù)據(jù)插補(bǔ)前、后,整體數(shù)據(jù)集的平均預(yù)測準(zhǔn)確率分別為89.77%和90.93%,均方誤差分別為0.102 3和0.090 7,前、后變化均不大。其具體預(yù)測結(jié)果,插補(bǔ)后,無突出的平均準(zhǔn)確率為92.15%,與插補(bǔ)前對比變化不大;而有突出數(shù)據(jù)的平均準(zhǔn)確率為90.41%,明顯大于插補(bǔ)前的83.02%。結(jié)果表明,MICE_SVM算法可高質(zhì)量增大可用數(shù)據(jù)集,對包含缺失值的有突出數(shù)據(jù)的預(yù)測準(zhǔn)確率提升效果明顯,對無突出數(shù)據(jù)預(yù)測準(zhǔn)確率和整體預(yù)測準(zhǔn)確率提升效果不大。
為驗證WOA優(yōu)化ELM算法可提高煤與瓦斯有、無突出預(yù)測準(zhǔn)確率的有效性,按照上述數(shù)據(jù)集劃分,分別采用MICE_SVM-ELM和MICE_SVM-WOA-ELM這2個模型訓(xùn)練與測試并進(jìn)行對比,重復(fù)試驗20次,最終結(jié)果取均值。2種模型預(yù)測效果如圖4所示(0表示無突出,1表示有突出)。
圖4 數(shù)據(jù)插補(bǔ)后不同模型預(yù)測效果
由圖4可知,采用MICE_SVM-WOA-ELM模型對27組測試集數(shù)據(jù)預(yù)測結(jié)果只有1個樣本與實(shí)際情況不相符,而MICE_SVM-ELM模型的預(yù)測結(jié)果有3個樣本不相符。結(jié)果表明,WOA優(yōu)化算法可有效提高ELM算法預(yù)測性能,即提高無突出和有突出樣本預(yù)測效果以及整體數(shù)據(jù)的預(yù)測準(zhǔn)確性。
為驗證WOA-ELM在煤與瓦斯有、無突出危險性預(yù)測方面較其他模型具有優(yōu)勢,使用Python語言實(shí)現(xiàn)KNN,SVM和ELM這3種常用算法,并將預(yù)測結(jié)果與WOA-ELM模型對比。模型1~7分別代表KNN,SVM,ELM,MICE_SVM-KNN,MICE_SVM-SVM,MICE_SVM-ELM,MICE_SVM-WOA-ELM,模型1,2,3分別為KNN,SVM,ELM預(yù)測插補(bǔ)前數(shù)據(jù)集,即無突出數(shù)據(jù)71組,無缺失有突出數(shù)據(jù)35組,從中分別隨機(jī)選取57組和28組訓(xùn)練模型,其余數(shù)據(jù)測試訓(xùn)練好模型;模型4~7分別為KNN,SVM,ELM,WOA-ELM算法在插補(bǔ)后數(shù)據(jù)集上預(yù)測,即無突出71組,有突出62組,從中分別隨機(jī)選取57組和49組訓(xùn)練模型,其余數(shù)據(jù)測試。其中KNN參數(shù)n_neighbors=5;SVM參數(shù)kernal=‘rbf’,c=1.0,gamma=0.2。試驗均重復(fù)20次,結(jié)果取均值,不同模型預(yù)測結(jié)果見表4。
表4 不同模型預(yù)測結(jié)果比較
由表4可知,對缺失數(shù)據(jù)插補(bǔ)前,無突出數(shù)據(jù)71組,有突出數(shù)據(jù)35組,無突出數(shù)據(jù)的數(shù)據(jù)量明顯多于有突出數(shù)據(jù)的數(shù)據(jù)量,其預(yù)測結(jié)果易傾向于數(shù)據(jù)量較多的無突出數(shù)據(jù)組,使其預(yù)測準(zhǔn)確率更高。將模型1,2,3的預(yù)測結(jié)果對比可知,ELM受不同類別數(shù)據(jù)量不平衡的影響最小,在有突出數(shù)據(jù)偏少的情況下,其預(yù)測準(zhǔn)確率為83.02%,明顯高于KNN的66.53%和SVM的73.70%;將模型1,2,3和模型4,5,6的預(yù)測結(jié)果對比可知,MICE_SVM插補(bǔ)缺失數(shù)據(jù)前、后,采用KNN,SVM和ELM預(yù)測,對有突出的預(yù)測準(zhǔn)確率提高均很顯著,但對整體的預(yù)測準(zhǔn)確率提高不明顯;將模型4,5,6,7的預(yù)測結(jié)果對比可知,WOA-ELM模型對插補(bǔ)后的數(shù)據(jù)集預(yù)測準(zhǔn)確率最高,說明WOA優(yōu)化算法可顯著提高ELM算法的預(yù)測性能。由此可知:MICE_SVM-WOA-ELM模型在煤與瓦斯有、無突出危險性預(yù)測方面具有更好的預(yù)測效果和泛化能力。
1)提出1種MICE_SVM方法對有突出數(shù)據(jù)缺失值插補(bǔ)方法,與Mean,SVM,KNN,RF和MCMC對比,MICE_SVM方法的PAC和DAC 2個評估指標(biāo)結(jié)果均優(yōu)于其他方法。對缺失數(shù)據(jù)插補(bǔ)前、后,分別采用ELM算法預(yù)測插補(bǔ)前、后的有突出預(yù)測準(zhǔn)確率分別為83.02%,90.41%,插補(bǔ)后較插補(bǔ)前準(zhǔn)確率提高了7.39%,結(jié)果表明MICE_SVM顯著提高了有突出預(yù)測準(zhǔn)確率,是1種有效的缺失數(shù)據(jù)插補(bǔ)算法。
2)不同的分類算法對煤與瓦斯有、無突出危險性預(yù)測準(zhǔn)確率不同,插補(bǔ)前、后,相比于KNN和SVM,ELM的預(yù)測準(zhǔn)確率均更高,整體預(yù)測準(zhǔn)確率分別為89.77%,90.93%。
3)缺失數(shù)據(jù)插補(bǔ)后,選用WOA優(yōu)選ELM算法的輸入層權(quán)值及隱藏層神經(jīng)元閾值,建立最佳預(yù)測模型,對無突出、有突出和整體的預(yù)測準(zhǔn)確率分別為97.94%,96.25%,96.48%,較優(yōu)化前的ELM算法的準(zhǔn)確率分別提高了5.79%,5.84%,5.55%,結(jié)果表明:WOA-ELM模型對無突出、有突出和整體的預(yù)測準(zhǔn)確率均有提高,WOA可有效提高ELM算法的預(yù)測性能。
中國安全生產(chǎn)科學(xué)技術(shù)2022年7期