趙 丹 , 沈志遠 , 宋子豪
(1.遼寧工程技術大學 安全科學與工程學院, 遼寧 阜新 123000;2.遼寧工程技術大學 礦山熱動力災害與防治教育部重點實驗室, 遼寧 葫蘆島125105)
如何及時準確的判斷故障的位置,已成為煤礦亟待解決的一個難題[1-2]。隨著煤礦智能化建設的發(fā)展,應用機器學習算法實現通風系統(tǒng)的智能故障診斷,助力礦井通風智能化管理是研究的關鍵[3]。
隨著大數據、工業(yè)互聯(lián)網、人工智能等技術的發(fā)展,故障診斷技術在電網[4]、機械設備[5]、航空航天[6]等不同工程領域應用成熟。2018 年,劉劍等[7-8]以風量作為輸入特征,應用支持向量機(Support Vector Machine,SVM)算法確定了礦井通風系統(tǒng)故障位置及故障量,這開創(chuàng)了應用機器學習進行礦井通風系統(tǒng)故障診斷的先河,2020 年應用遺傳算法構建了礦井通風系統(tǒng)故障診斷無監(jiān)督模型,無需樣本參與訓練,有效提升了診斷性能;HUANG 等[9-11]利用卡爾曼濾波模型對礦井監(jiān)測風速數據進行了預處理,并提出了基于混合編碼算法的礦井通風系統(tǒng)無監(jiān)督學習故障診斷模型,實現了故障位置和故障量的同時診斷;周啟超等[12]基于改進的遺傳算法對礦井通風系統(tǒng)故障診斷SVM 模型的參數進行了優(yōu)化研究,有效避免了模型易出現過擬合的問題;倪景峰等[13-14]提出了基于隨機森林和決策樹的通風系統(tǒng)故障診斷方法,并證實了隨機森林模型優(yōu)于決策樹模型;張浪等[15]選擇了SVM、神經網絡和隨機森林(Random Forest,RF)3 種礦井通風系統(tǒng)故障診斷機器學習算法進行對比分析,結果表明神經網絡模型具有更高的準確率;ZHAO 等[16]以大明礦為研究對象,在構建的故障巷道范圍庫內應用改進的SVM 算法進行通風系統(tǒng)故障診斷,縮減了故障定位的范圍,提高了樣本訓練效率;WANG 等[17]構建了基于多標簽K-近鄰(Multi-label K-Nearest Neighbor,ML-KNN)的機器學習模型,解決了礦井通風系統(tǒng)多個位置發(fā)生故障時的快速診斷問題;LIU 等[18]應用4種機器學習算法:K-近鄰(K-Nearest Neighbor,KNN)、多層感知機(Multilayer Perceptron,MLP)、SVM 和決策樹(Decision Tree,DT)對礦井通風系統(tǒng)故障診斷模型性能進行了充分評價,確定了KNN 模型和DT 模型的優(yōu)越性。雖然機器學習算法在礦井通風系統(tǒng)故障診斷中表現優(yōu)異,但目前的礦井通風系統(tǒng)故障診斷模型的建立都是在數據集較為完備的前提下進行的。但是,在實際的通風系統(tǒng)故障情形下,完備的數據集條件是不能滿足的。機器學習分類器高度依賴完備的樣本集,不平衡的樣本集訓練出的模型通常不具有參考意義。如何在樣本不平衡情況下開展故障診斷是一個嚴峻的挑戰(zhàn)。機器學習領域的學者們通常從算法層面和數據層面解決不平衡數據的分類問題。文獻[19]從算法層面出發(fā)構建了單分類支持向量機(One-Class SVM,OCISVM)與增量學習(Incremental Learnin-g,IL)相結合的通風系統(tǒng)故障診斷模型,但是該方法依賴于特定算法,導致適用性較差。
鑒于此,筆者從數據層面和網絡體系層面開展不平衡數據集的通風系統(tǒng)故障診斷研究,構建了基于Wasserstein 距離的生成對抗網絡(Wasserstein divergence for GANs,WGAN-div),創(chuàng)新性地在WGAN-div模型中加入殘差塊實現原始數據增強處理,重構平衡數據集。結合集成學習中的投票機制實現通風網絡分支故障診斷,確定了RF 模型在通風系統(tǒng)故障診斷中的優(yōu)越性。有效解決了實際工況下樣本不平衡的故障診斷問題,為智能診斷技術真正應用到礦井提供技術支撐。
礦井通風系統(tǒng)實際工況下,風門、風窗等含通風構筑物的巷道,采掘工作面,主要用風巷道,通風多分支交匯點處等位置更易發(fā)生故障,產生的故障數據較多,而其他分支故障概率較低,產生的故障數據較少,各個分支產生的故障數據樣本數量存在很大的差距,存在數據不平衡問題。如圖1 所示,不同顏色的五角星代表通風系統(tǒng)監(jiān)測數據中的不同故障分支產生的故障樣本,黃色五角星代表構筑物分支等易發(fā)生故障巷道產生的故障樣本,為多數類故障樣本集合;藍色五角星代表其他不易發(fā)生故障的分支產生的故障樣本,為少數類故障樣本集合。
圖1 數據不平衡示意Fig.1 Schematic diagram of data imbalance
礦井通風系統(tǒng)故障分支不平衡數據集可以描述為
式中,Xm為少數類故障分支數據集;Yn為多數類故障分支數據集;Sm+n為通風系統(tǒng)故障分支不平衡數據集;xi和yi為各數據集中的第i個樣本數據;m為少數類樣本個數;n為多數類樣本個數。
生成對抗網絡(Generative Adversarial Network,GAN)模型可以實現新樣本數據的生成,從而達到調整Xm和Yn的類間平衡度的目的。GAN 模型主要由判別器D 和生成器G 兩部分組成,其基本結構如圖2 所示。生成器G 將隨機噪聲z映射到真實樣本空間生成新的數據x?;判別器D 判斷x?的真假即判別x?為真實數據或生成數據。2 個網絡交替訓練,當判別器D 和生成器G 達到動態(tài)平衡時,新生成的數據與真實數據具有相似特征。
圖2 GAN 模型基本結構Fig.2 Basic structure of GAN model
GAN 模型的損失函數為
其中,x為真實樣本數據;Pz為隨機噪聲的分布;z為噪聲;Mr為真實數據的分布;EG(z)~Pz為添加噪聲的期望函數;Ex~Mr為真實數據的期望函數;G(·)為生成器的可微函數;D(·)為判別器的可微函數。實際上,生成器G 的損失函數相當于最小化生成數據分布和與真實數據分布之間的JS 散度,有
式中,PG為生成數據的分布;G*、D*分別為生成器損失函數和判別器損失函數的最優(yōu)解;Ex~PG為生成數據的期望函數;JS 為JS 散度。
在GAN 訓練初期,PG與Mr一般不會重疊,判別器D 容易判定數據的真假,但此時,該損失函數中的JS 散度退化為常數項lg 2,進而導致生成器G 的梯度消失,無法應用梯度下降法對網絡進行訓練,這使得傳統(tǒng)GAN 模型出現訓練不穩(wěn)定的問題[20]。2017 年,ARJOVSKY 等[20]提出應用Wasserstein 距離代替JS(Jensen-Shannon)散度以解決傳統(tǒng)GAN 模型梯度消失的問題,構建了基于Wasserstein 距離的生成對抗網絡(Wasserstein GAN,WGAN)模型。但是在WGAN訓練過程中,通常需要保持梯度的絕對值小于某個固定值,文獻[21]提出了加入懲罰因子的GAN 模型(Wasserstein for GANs,WGAN-gp)模型,保證生成樣本與真實樣本之間滿足Lipschitz 連續(xù),但該方案并沒有理論依據。對此,文獻[22]提出了不需要Lipschitz約束的WGAN-div 模型,并在理論和應用上都證明了其優(yōu)越性。基于前人的研究,筆者選擇WGA-div 數據增強模型,損失函數為
式中,LG為生成器損失函數;LD為判別器損失函數;EG(z)~PG為生成器噪聲的期望函數;Ex?~pu為插值x?的期望函數,x?為生成樣本與真實樣本之間的隨機插值,x?=αx+(1-α)G(z),α為系數,α∈[0,1] ;pu為插值x?的分布;k、p為范數的冪,根據前人研究和實驗測試,設置k=2、p=6。
文獻[23]針對深度神經網絡訓練困難問題,提出了殘差學習框架,能夠簡化深度神經網絡的訓練;文獻[24]應用加入殘差塊的生成對抗網絡實現了光伏數據的缺失值重構。鑒于此,為了防止使用深度卷積網絡搭建的WGAN-div 模型在訓練過程中出現梯度消失或網絡退化的問題,筆者在判別器和生成器中加入了恒等映射殘差塊,殘差塊如圖3 所示[23]。
圖3 殘差塊示意Fig.3 Schematic diagram of residual block
殘差塊以真實數據x為輸入,主線徑上有2 個卷積層,其目標函數為H(x),定義為
其中,f(x,W)為映射函數;W為卷積層的權重。恒等映射殘差塊不僅可以學習x與H(x)的差別而且保證了2 者尺寸相同。殘差塊的引入使得網絡的訓練更容易,避免了梯度消失和梯度爆炸的問題。因此,筆者采用加入了殘差塊的WGAN-div 模型對通風系統(tǒng)監(jiān)測數據不平衡樣本進行數據擴充。將通風系統(tǒng)監(jiān)測數據故障數據集中少數類樣本個數由m調整到,進一步得到平衡數據集S′={Yn},其中,為平衡后的少數類樣本數據集。
隨機森林作為一種典型的集成學習模型,可以處理高維數據的分類,因此筆者選擇RF 作為通風系統(tǒng)故障診斷多分類器。將風速數據作為RF 分類模型的輸入,將故障分支編號作為RF 分類模型的輸出。具體過程如下:對樣本數據集進行Booststrap 采樣,得到Kn個樣本子集,應用子集訓練出Kn個決策樹,將測試數據輸入Kn個決策樹集合中得到N個結果,采用投票策略得到最終的分類結果為
式中,F(x)為Kn個決策樹投票確定的礦井通風系統(tǒng)故障分支;fi為第i個決策樹的分類模型;v為輸入模型的特征參量,本文為風速數據; θi為用于訓練第i個決策樹的樣本子集;I(·)為示性函數(分別以1 和0表示集合內是否存在該數值);y為待判別的故障分支編號。
基于WGAN-div-RF 的通風系統(tǒng)故障診斷整體構架如圖4 所示。具體流程如下:
(1)由于實際工況下礦井故障樣本數據獲取困難,本文應用智能礦井通風仿真系統(tǒng)(IMVS)模擬通風系統(tǒng)故障,構造通風系統(tǒng)故障不平衡數據集O,將數據集劃分為測試樣本集Ost和訓練樣本集Oin。
(2)應用WGAN-div 模型對不平衡的訓練樣本集Oin進行數據增強處理,生成新的故障樣本On,將On加入到原訓練樣本集Oin中合成新的增廣樣本Oex。
(3)用平衡后的增廣樣本集Oex訓練RF 模型,獲得訓練好的故障診斷模型。
(4)將測試樣本集Ost輸入訓練好的RF 模型進行通風系統(tǒng)故障診斷。
通風系統(tǒng)故障診斷多分類模型的評價通常建立在二分類混淆矩陣的基礎上,對于樣本不平衡的多分類問題,準確率指標難以實現對分類結果的準確評價,因此,文中增加了召回率Re、精確率Pr、Gmean、和F1分數對通風故障診斷模型進行綜合評價。各個指標[25]的定義如下:
式中,A為模型故障診斷準確率;Pr和Re分別為模型的平均精確率和召回率;Gmean為召回率和特異度的幾何平均值;N為輸入模型的通風網絡分支數,TPi為第i個故障分支的真正例;TNi為第i個故障分支的真負例;FPi為第i個故障分支的假正例;FNi為第i個故障分支的假負例。
為了驗證不平衡數據對通風系統(tǒng)故障診斷的影響,以圖5 所示簡單角聯(lián)通風網絡為例,設計不同不平衡比下的故障診斷實驗。該網絡中分支數為7,節(jié)點數為6,e1和e7分別為進風分支和回風分支,調節(jié)風窗安設在e4分支,風機特性方程為1 037.2+52.69q-0.52q2,其中,q為風量。通風參數見表1。采用智能礦井通風仿真系統(tǒng)IMVS 模擬分支故障[7](不包括源匯分支),故障數據生成的具體方法參見文獻[7],按照不同的不平衡比生成4 組數據集,構造4組實驗方案。
表1 簡單網絡各分支初始參數Table 1 Initial parameters of each branch of a simple network
圖5 簡單通風網絡Fig.5 Simple ventilation network diagram
e4分支安設了風窗,相較于其他分支更容易發(fā)生故障,因此通過增加e4分支的故障次數改變不平衡比。不平衡比分別設置為2∶1、5∶1、10∶1、20∶1,e4分支的模擬故障次數按照不平衡比的不同分別設置為100、250、500、1 000。為了方便比較,實驗將少數類故障樣本數量設置為相同,即除了e4分支外,e2、e3、e5、e6每個分支模擬故障50 次,相應的全部分支的故障樣本總數分別為300、450、700、1 200,對應的實驗方案分別記為T1、T2、T3、T4。每一組實驗均對應一個平衡數據集作為對照實驗組進行對比分析。為了保證實驗對比的合理性,平衡數據集的故障樣本總量應與不平衡數據集保持一致即每一組實驗的故障樣本總數應為300、450、700、1 200,由于平衡樣本集中每一條分支的故障樣本數應相同且排除源匯分支共有5 條分支,因此,平衡數據集中4 組實驗各分支故障次數分別設置為60、90、140、240,對應的實驗方案分別記為D1、D2、D3、D4。
為嚴格控制相關變量,在保證故障樣本量一致的同時,各個實驗模型均應在最優(yōu)參數下運行才具備比較意義。以最大化F1 分數為目標進行調整,經十折交叉驗證確定各實驗RF 模型最佳參數,參數定義見表2,參數設置見表3。文中以風速特征作為輸入,因此利用式(13)將通風網絡解算得到的風量q轉換為風速v。
表2 分類模型參數定義Table 2 Definition of classification model parameters
表3 RF 模型參數Table 3 RF model parameters
其中,le巷道斷面高度,m;we為巷道斷面寬度,m。為以T1實驗為例,其部分故障樣本數據見表4,表中為各分支風速,m/s;為故障分支。將每一組實驗數據集的70%劃分為訓練集,30%劃分為測試集,以故障分支編號作為輸出進行故障診斷實驗,得到測試集的混淆矩陣如圖6 所示,橫坐標表示預測故障分支編號,縱坐標表示真實故障分支編號。實驗T1~T4的綜合評價指標結果如圖7 所示。
表4 T1 實驗模擬故障樣本集Table 4 T1 simulation fault sample set
圖6 簡單通風網絡故障診斷實驗混淆矩陣Fig.6 Confusion matrix of simple ventilation network fault diagnosis experiment
圖7 簡單通風網絡不平衡數據集故障診斷實驗評價指標Fig.7 Experimental evaluation indexes of fault diagnosis in unbalanced data set of simple ventilation network
由圖6(a)可知,實驗D1~D4的平均準確率分別0.922、0.933、0.957、0.970,可以看出RF 分類模型能夠有效地對通風系統(tǒng)故障進行診斷。但值得注意的是,理想的訓練樣本條件是獲得良好診斷結果的前提,理想的訓練樣本不僅意味著故障樣本數據充足,還以意味著故障樣本數據中各個分支有著平衡的故障樣本數量。然而,實際的礦井通風系統(tǒng)難以獲得各分支故障樣本均衡的數據集。由圖6(b)和圖7 可知,實驗T1的Re、Pr、Gmean和F1分數平均值分別為0.91、0.93、0.90、0.92;實驗T2的Re、Pr、Gmean和F1分數平均值分 別 為0.89、0.95、0.88、0.91;實 驗T3的Re、Pr、Gmean和F1分數平均值分別為0.812、0.95、0.82、0.87;實驗T4的Re、Pr、Gmean和F1分數平均值分別為0.73、0.95、0.81、0.78,可以看出隨著不平衡比例的增加,除模型的精確率未發(fā)生明顯變化之外,召回率、Gmean和F1分數不斷降低,由此可見不平衡數據影響了模型的整體性能,其魯棒性降低顯著,不平衡數據使得模型出現漏判和誤判的情況較多。尤其,由圖7 中T4實驗可知,當不平衡比為20∶1 時,各故障分支中Re的最大值為1,最小值為0.6;Pr的最大值為1,最小值為0.83;F1分數的最大值為0.96,最小值為0.73,各分支指標值的分布差異較大,分析認為數據不平衡易引起小析取問題,常規(guī)的機器學習分類器依據大量多數類分支(e4分支)數據規(guī)則建立模型,而忽略了其他少樣本分支的數據特點,從而導致在分類時易將其他分支故障誤診斷為多數類分支(e4分支),隨著不平衡比例的增加,故障樣本被誤判的比例逐漸升高,這進一步說明了不平衡數據集對通風系統(tǒng)故障診斷模型的危害,可見研究的必要性和實用性。
筆者以雞西礦業(yè)集團東山煤礦通風系統(tǒng)為例進行不平衡數據故障診斷實驗。實驗礦井的通風方式為對角式,該礦通風網絡如圖8 所示,分支數為96,節(jié)點數為84,總入風量14 394 m3/min,4 條進風井對應的分支編號分別為e2、e1、e23、e5,由南風井、西風井共同擔負全礦井總回風任務,總排風量14 738 m3/min,對應的分支編號分別為e54、e92。安設風門的分支編號 為e47、e85、e28、e86、e48、e78、e22、e7、e30、e38、e29、e19、e65、e52、e84、e33;安設風窗的分支編號為e10、e83、e24、e13、e93。風機特性方程分別為:723.65+18.26q-0.17q2、614+45.2q-0.09q2。應用IMVS 模擬分支故障(不包括源匯分支)[7],其中風門風窗構筑物所在分支模擬故障200 次,其他分支模擬故障10 次,得到5 120 組故障樣本,數據不平衡比為20∶1。全礦共安設了15 臺風速傳感器,布設位置已在圖8 中標出(本文以礦井實際安設的傳感器為基礎,不考慮傳感器安設數量和配置的優(yōu)化問題)。將風速傳感器所在分支解算得到的風量數據經式(13)轉換為風速數據作為模型的輸入,部分數據見表5,表中為各分支風速,m/s;為故障分支。將標準化處理后的故障樣本數據按照7∶3 的比例劃分為訓練樣本和測試樣本。
表5 生產礦井故障樣本集Table 5 Fault sample set in production mine
圖8 東山礦通風網絡Fig.8 Ventilation network of Dongshan coal mine
為了驗證WGAN-div 在通風系統(tǒng)不平衡數據處理的有效性,原始故障樣本分別采用:① 原始數據集Din;② GAN 模型;③ WGAN 模型;④ WGAN-gp 模型;⑤ 本文所建WGAN-div 模型處理生成新的樣本集On,使得合樣本集Oex達到數據平衡,分類算法都選擇RF 模型。本文構建的WGAN-div 模型生成器、判別器均包含3 個殘差塊,參數設置見表6。實驗結果見表7,為10 次運行結果的平均值 ±標準差(最優(yōu)結果加粗表示)。分析表6 可得出:
表6 WGAN-div 模型參數設置Table 6 WGAN-div model parameters
表7 不同數據增強方法的實驗結果Table 7 Experimental results of different data enhancement methods
(1)直接采用RF 分類模型對原始不平衡數據集進行故障分支診斷,A、Pr、Gmean和F1分數都是最低。這意味著RF 模型不能準確識別出通風系統(tǒng)不平衡數據集中的少數類故障樣本,因此,使用原始數據集不能實現對通風系統(tǒng)故障分支的有效診斷。
(2)對比原始數據集,基于WGAN-div 數據增強后,A提升了17.5%,Re提升了2.1%,Pr提升了24.2%,Gmean提升了17.1%,F1分數提升了14.4%。由此說明,利用WGAN-div 模型對不平衡的故障數據進行增強,能夠有效提高原始數據的質量,進而提高分類器的判別性能。
(3)使用GAN、WGAN、WGAN-gp 進行數據增強后,雖然準確率和G-mean 指標均增大,分類模型對故障分支的識別能力增強,但是在F1分數上卻沒有任何明顯的改進,分析認為模型擴充了劣質的新故障樣本,影響了分類模型對故障分支診斷的判別。相較于GAN、WGAN、WGAN-gp 模型,WGAN-div 模型各項評價指標均為最高,A、Re、Pr、Gmean和F1分數分別為96.5%、96.2%、96.3%、96.1%和96.2%,大幅度提高了分類模型對故障分支的識別能力,驗證了所提WGAN-div 模型在處理不平衡數據時的優(yōu)越性。
應用t-分布隨機領域嵌入(t-Stochastic Neighbor embedding,t-SNE)算法對WGAN-div 模型的樣本生成情況進行降維可視化分析,圖9 展示了迭代次數N分別0、100、200、500、800、1 000 時模型的生成樣本與真實樣本之間的分布情況,圖10 展示模型損失函數的變化情況。觀察圖9、10,隨著迭代次數的增加,WAGN-div 模型的損失函數穩(wěn)定收斂、逐漸平穩(wěn),生成的新樣本數據與真實數據分布逐漸交融,生成數據與真實數據具有很好的相似性,生成數據的質量越來越高。
圖9 t-SNE 降維數據可視化Fig.9 t-SNE dimension reduction data visualization
圖10 WGAN-div 損失函數Fig.10 WGAN-div loss function
為了驗證RF 模型能夠更有效的對通風系統(tǒng)故障分支進行辨別,原始樣本經過WGAN-div 處理后,選用了以下經典的集成學習分類模型進行對比:類別提升樹(CBT)、輕量梯度提升樹(LGB)、梯度提升樹(GBDT),此外,將文獻[7]中提出的通風系統(tǒng)故障診斷SVM 模型也納入本文的對比實驗。各個模型的最優(yōu)參數見表8,各個參數定義見表2。
表8 分類模型最優(yōu)參數Table 8 Optimal parameters of classification model
為了考察不同的數據生成比率下分類模型的表現是否具有明顯改善,本文將WGAN-div 的數據生成比率分別調整為10%、20%、50%、80%、100%。圖11展示了基于WGAN-div 不同數據生成比率下各分類模型的實驗結果(10 次實驗的平均值),分析如下:
圖11 不同數據生成比率下各分類模型的實驗結果Fig.11 Experimental results of different classification models at different data generation rate
(1)從數據生成比率的角度來看,相較于原始數據集,數據生成比率為10%時,所有模型Re、Pr、Gmean和F1分數平均提高了2.7%、0.3%、1.8%和1.5%,模型性能提升不明顯。但是,當數據生成比率達到50%時,所有模型的Re、Pr、Gmean和F1分數平均提高了19.8%、1.18%、13.4%和12%,所有分類模型的性能提升明顯。新數據進一步生成達到80%時,模型表現的改進相對有限,即使數據生成比率達到100%時,各模型的性能達到最優(yōu),但是相對于50%的生成比率模型性能提升并不優(yōu)越,因此當礦井通風系統(tǒng)故障分支較多時,考慮時間成本可以將數據生成比率設置為80%~100%。
(2)從分類模型的角度來看,RF 模型無論是在原不平衡數據集還是增廣數據集上都表現出明顯的優(yōu)勢。當樣本數據達到完全平衡時,相較于原始數據集,RF 模型在Re、Pr、Gmean和F1評價指標上分別提升了21.9%、2.7%、11.8%、11.2%。在所有的分類模型中,傳統(tǒng)的機器學習模型SVM 性能要明顯弱于集成學習模型,盡管SVM 模型在F1 指標上的表現可以通過數據增強得到顯著改善,但是其Gmean指標并未隨著數據的平衡而明顯改進,分析認為數據增強生成的偽樣本具有一定的隨機性,導致SVM 表現不夠穩(wěn)定。特別地,當擴充數據集達到平衡時,與傳統(tǒng)的礦井通風系統(tǒng)SVM 故障診斷方法相比,RF 模型在Re、Pr、Gmean和F1指標上分別提高了4.7%、2.3%、10.1%、3.5%??偟膩碚f,本文所提RF 模型適用于礦井通風系統(tǒng)故障診斷,當訓練樣本逐漸達到平衡時,RF 模型在A、Re、Pr、Gmean和F1得分上的表現較其他模型更具優(yōu)勢。
課題組在東山礦進行了2 次現場工業(yè)應用試驗,考慮到生產安全和礦山的實際情況,通過打開關閉狀態(tài)下的風門方式進行故障模擬,第1 次實驗在確保東山礦安全生產的前提下打開了西采區(qū)6D 上左一回風巷的風門(圖8 中的33 號分支),風門開啟后采集該礦15 個傳感器的風速值(取風門開啟后5 min 內各個傳感器的平均值),把15 個采集到的風速作為輸入值,利用預測模型對故障分支進行預測,預測結果輸出為33。第2 次實驗打開了西采區(qū)3 號上右一巷的風門(圖8 中的85 號分支),將風門開啟后采集到的15 個風速傳感器值輸入模型,預測結果輸出為85,2 次試驗故障分支預測結果與工業(yè)試驗結果一致。
(1)從礦井通風系統(tǒng)實際工況下各分支故障概率不同的角度出發(fā),以簡單的T 型通風網絡為例,說明了不平衡數據集對故障診斷模型的影響。建立了WGAN-div-RF 故障診斷模型,有效解決了通風系統(tǒng)故障數據不平衡的問題,從數據層面提高了分類模型的特征提取能力,進而提高分類模型的性能。
(2)故障診斷實驗以及t-SNE 可視化結果表明,加入殘差塊的WGAN-div 模型能夠生成高質量的新數據實現對樣本集的擴充,WGAN-div 模型的A、Re、Pr、Gmean和F1分數分別為96.5%、96.2%、96.3%、96.1%和96.2%,相較于其他數據增強模型在處理不平衡數據時更具優(yōu)越性。(3)針對通風系統(tǒng)故障診斷高維多分類問題,結合集成學習中的投票機制對通風網絡分支進行分類,所得結果要優(yōu)于傳統(tǒng)的SVM 模型,其中RF 模型在不同數據生成比率上各評價指標得分較其他集成模型更具優(yōu)勢。