張浪,張迎輝,張逸斌,李左
(1.煤炭科學(xué)研究總院,北京 100013;2.煤炭科學(xué)技術(shù)研究院有限公司 安全分院,北京 100013;3.煤炭資源高效開采與潔凈利用國家重點實驗室,北京 100013)
隨著智慧礦山建設(shè)和智能化開采的提出,礦井通風(fēng)亟需向智能化、信息化方向轉(zhuǎn)變升級[1-3]。研究礦井通風(fēng)網(wǎng)絡(luò)故障診斷對促進(jìn)礦井通風(fēng)智能化發(fā)展、提高通風(fēng)系統(tǒng)安全保障能力具有重要意義[4-5]。
目前煤礦通風(fēng)系統(tǒng)故障診斷方法主要是根據(jù)井下各類傳感器監(jiān)測數(shù)據(jù)進(jìn)行分析判斷,只能識別傳感器所在巷道的故障。針對該問題,一些學(xué)者將機器學(xué)習(xí)算法[6-9]應(yīng)用到煤礦通風(fēng)系統(tǒng)故障診斷中,取得了一定成果。劉劍等[10-12]提出了基于支持向量機(Support Vector Machine,SVM)的礦井通風(fēng)系統(tǒng)阻變型故障診斷方法,將風(fēng)量-風(fēng)壓復(fù)合特征作為SVM的輸入構(gòu)建診斷模型,提高了故障診斷準(zhǔn)確率。周啟超等[13]提出采用改進(jìn)遺傳算法對SVM 參數(shù)進(jìn)行優(yōu)化,并用于通風(fēng)系統(tǒng)故障診斷。黃德等[14]將風(fēng)量、風(fēng)壓、節(jié)點壓能等7 種特征作為觀測特征進(jìn)行組合試驗,解決了故障診斷觀測特征冗余無關(guān)的問題。劉彥青[15]提出了基于BP 神經(jīng)網(wǎng)絡(luò)的礦井風(fēng)量預(yù)測模型,對待掘巷道摩擦阻力系數(shù)進(jìn)行了預(yù)測。
機器學(xué)習(xí)算法通過對已知數(shù)據(jù)的學(xué)習(xí)來預(yù)測未知數(shù)據(jù),現(xiàn)有通風(fēng)系統(tǒng)故障診斷方法大多針對1 種機器學(xué)習(xí)算法進(jìn)行研究,無法保證所選算法為最優(yōu)。因此,本文對多種機器學(xué)習(xí)算法進(jìn)行分析比較,選擇SVM、隨機森林和神經(jīng)網(wǎng)絡(luò)3 種算法,通過網(wǎng)格搜索和交叉驗證相結(jié)合的方法對基于SVM、隨機森林、神經(jīng)網(wǎng)絡(luò)的通風(fēng)網(wǎng)絡(luò)故障診斷模型進(jìn)行參數(shù)尋優(yōu),最后采用3 種診斷模型進(jìn)行實驗和現(xiàn)場驗證。
對最近鄰、線性模型、樸素貝葉斯、決策樹、隨機森林、梯度提升決策樹、SVM、神經(jīng)網(wǎng)絡(luò)等8 種機器學(xué)習(xí)算法進(jìn)行比較[16],結(jié)果見表1。綜合考慮各種算法的優(yōu)缺點,選擇SVM、隨機森林和神經(jīng)網(wǎng)絡(luò)3 種機器學(xué)習(xí)算法進(jìn)行通風(fēng)網(wǎng)絡(luò)故障診斷研究。
表1 8 種機器學(xué)習(xí)算法比較Table 1 Comparison of eight machine learning algorithms
SVM 主要思想是建立一個最優(yōu)超平面作為決策曲面,使得正例與反例之間的間隔最大化。在樣本空間中,超平面可描述為
式中:wT為法向量,決定超平面的方向;x為輸入特征變量;b為位移項,決定超平面與原點之間的距離。
定義2 個標(biāo)準(zhǔn)超平面H1和H2,H1:wTx+b=1,H2:wTx+b=-1,2 個平面之間的距離就是分類間隔,可表示為
影響SVM 分類準(zhǔn)確率的參數(shù)主要是γ和C。γ是控制高斯核寬度的參數(shù),決定點與點之間的距離,γ越小,則決策邊界變化越慢,生成的模型復(fù)雜度越低。C是正則化參數(shù),限制每個點的重要程度,C越大,則對應(yīng)的模型越復(fù)雜。
隨機森林是一種集成算法,實現(xiàn)步驟如下:
(1)從大小為N的樣本數(shù)據(jù)集L中有放回地隨機抽取N個訓(xùn)練樣本,得到一個自助訓(xùn)練集Lk。
(2)用自助訓(xùn)練集Lk訓(xùn)練1 棵決策樹,在決策樹的每個節(jié)點需要分裂時,隨機從每個樣本的M個屬性中選取M0個作為分裂屬性,然后從這M0個屬性中選擇1 個進(jìn)行分裂。
(3)每個節(jié)點按照步驟(2)進(jìn)行分裂,直到不能夠再分裂為止。
(4)按照步驟(1)-步驟(3)建立大量決策樹,構(gòu)成隨機森林。
影響隨機森林分類準(zhǔn)確率的參數(shù)主要是決策樹個數(shù)p和限制分支時考慮的特征個數(shù)q。p值越大,則對應(yīng)的隨機森林越復(fù)雜。q值決定每棵樹的隨機性大小,q值越小,隨機森林中的樹越不相同,一般默認(rèn)其值與樣本屬性個數(shù)M的關(guān)系為
神經(jīng)網(wǎng)絡(luò)是一種模擬人腦思維的計算機模型。神經(jīng)網(wǎng)絡(luò)無需事先確定描述輸入與輸出之間映射關(guān)系的數(shù)學(xué)方程,而僅通過自身的訓(xùn)練學(xué)習(xí)某種規(guī)則,在給定輸入值時得到最接近期望輸出值的結(jié)果。
影響神經(jīng)網(wǎng)絡(luò)分類準(zhǔn)確率的參數(shù)主要有隱含層層數(shù)、隱含層節(jié)點數(shù)、正則化參數(shù)、迭代次數(shù)及激活函數(shù)等。隱含層節(jié)點數(shù)t越大,正則化參數(shù)α越小,表示模型復(fù)雜度越高。確定隱含層節(jié)點數(shù)的經(jīng)驗公式為
式中:m為 輸入層節(jié)點數(shù);n為 輸出層節(jié)點數(shù);a為調(diào)節(jié)常數(shù),取值范圍一般為1~10。
采用SVM、隨機森林、神經(jīng)網(wǎng)絡(luò)3 種機器學(xué)習(xí)算法建立通風(fēng)網(wǎng)絡(luò)故障診斷模型。采集通風(fēng)系統(tǒng)數(shù)據(jù)并進(jìn)行預(yù)處理,從處理后的數(shù)據(jù)中隨機抽取75%作為訓(xùn)練集,25%作為測試集;通過網(wǎng)格搜索和交叉驗證進(jìn)行模型參數(shù)尋優(yōu),將測試集代入訓(xùn)練過的模型,根據(jù)測試集準(zhǔn)確率進(jìn)行最終評估?;跈C器學(xué)習(xí)的通風(fēng)網(wǎng)絡(luò)故障診斷方法流程如圖1 所示。
圖1 基于機器學(xué)習(xí)的通風(fēng)網(wǎng)絡(luò)故障診斷方法流程Fig.1 Flow of fault diagnosis method of ventilation network based on machine learning
3.1.1 實驗平臺
根據(jù)礦井通風(fēng)系統(tǒng)實際布局,按照幾何相似、運動相似、動力相似準(zhǔn)則構(gòu)建通風(fēng)網(wǎng)絡(luò)管道模型,采用中央并列式通風(fēng)方式和機械抽出式通風(fēng)方法,主副斜井進(jìn)風(fēng),回風(fēng)立井回風(fēng),布置1 臺2.5 kW 軸流式通風(fēng)機作為通風(fēng)動力裝置,共布置2 個水平、2 個回采工作面、1 個備用工作面、4 個掘進(jìn)工作面及3 處硐室型用風(fēng)地點。
實驗平臺由通風(fēng)系統(tǒng)網(wǎng)絡(luò)管道子系統(tǒng)、通風(fēng)系統(tǒng)傳感器與調(diào)控設(shè)施子系統(tǒng)組成,如圖2 所示,其中黃色部分表示自動蝶閥,藍(lán)色部分表示風(fēng)速傳感器,紅色部分表示溫濕度傳感器。通風(fēng)系統(tǒng)網(wǎng)絡(luò)管道子系統(tǒng)由直徑為160 mm 的透明亞克力管道組成,通風(fēng)管道總長度為75 m,管道網(wǎng)絡(luò)分支為62 條,管道網(wǎng)絡(luò)節(jié)點為38 個;通風(fēng)系統(tǒng)傳感器與調(diào)控設(shè)施子系統(tǒng)主要由16 臺自動蝶閥、14 臺壓差傳感器、18 臺風(fēng)速傳感器、3 臺溫濕度傳感器組成。
圖2 通風(fēng)網(wǎng)絡(luò)故障診斷實驗平臺Fig.2 Experimental platform of fault diagnosis of ventilation network
通風(fēng)網(wǎng)絡(luò)如圖3 所示,其中e1-e62為管道網(wǎng)絡(luò)分支,為管道網(wǎng)絡(luò)節(jié)點。
圖3 實驗平臺通風(fēng)網(wǎng)絡(luò)Fig.3 Ventilation network of experimental platform
3.1.2 數(shù)據(jù)采集過程
根據(jù)礦井通風(fēng)阻力定律,有
式中:hi為第i條 分支的阻力,Pa;ri為第i條分支的風(fēng)阻,N·s2/m8;Qi為第i條 分支的風(fēng)量,m3/s。
由式(5)可知,當(dāng)某條巷道分支風(fēng)阻發(fā)生改變時,會引起整個通風(fēng)網(wǎng)絡(luò)的風(fēng)量重新分配。在實驗平臺中,用蝶閥代替通風(fēng)構(gòu)筑物風(fēng)門、風(fēng)窗,保持通風(fēng)機動力不變,則蝶閥開度變化會造成其所在分支的等效風(fēng)阻發(fā)生變化,進(jìn)而引起風(fēng)量變化。實驗時隨機選取分支e8,e10,e15,e16,e55模擬故障情況,具體步驟如下:
(1)將通風(fēng)機頻率調(diào)為50 Hz,記錄各蝶閥初始狀態(tài)下e1-e3,e7,e9-e12,e20,e24,e27,e29,e35,e37,e41,e44,e49,e60分支中18 個風(fēng)速傳感器測得的風(fēng)速。
(2)調(diào)節(jié)分支e8中蝶閥開度,調(diào)節(jié)范圍為0~100°,不包括初始角度50°,連續(xù)調(diào)節(jié)60 次,記錄每次調(diào)節(jié)后網(wǎng)絡(luò)解算得到的風(fēng)速。
(3)按照步驟(2)依次調(diào)節(jié)分支e10,e15,e16,e55中蝶閥開度,并收集每次變化后18 個風(fēng)速傳感器測得的風(fēng)速。
(4)測量管道網(wǎng)絡(luò)的斷面面積,將風(fēng)速數(shù)據(jù)換算成風(fēng)量。
18 個風(fēng)速傳感器均為同一型號,測量精度為±0.2 m/s+2%FS,且在出廠前均已標(biāo)校完成,確保了風(fēng)量數(shù)據(jù)的準(zhǔn)確性。
實驗共收集風(fēng)量數(shù)據(jù)300 組,部分?jǐn)?shù)據(jù)見表2。將18 個分支的風(fēng)量作為故障診斷模型的輸入變量,故障分支編號作為輸出變量。
表2 部分風(fēng)量數(shù)據(jù)Table 2 Part of the air volume data m3/min
為使18 個輸入風(fēng)量數(shù)據(jù)位于同一量級,采用標(biāo)準(zhǔn)化方法對數(shù)據(jù)進(jìn)行預(yù)處理。標(biāo)準(zhǔn)化方法確保了每個特征的平均值為0,方差為1,計算公式為
式中:ynew為標(biāo)準(zhǔn)化處理后的數(shù)據(jù);yj為第j個輸入數(shù)據(jù);為yj的平均值;σ為yj的方差;K為數(shù)據(jù)總數(shù)。
各分支初始風(fēng)量數(shù)據(jù)箱形圖如圖4 所示,從上至下分別為上邊緣、上四分位數(shù)、中位數(shù)、下四分位數(shù)和下邊緣,其中上邊緣、下邊緣分別表示每個分支300 個數(shù)的最大值和最小值,數(shù)據(jù)中75%低于上四分位數(shù),數(shù)據(jù)中25%低于下四分位數(shù),中位數(shù)則是按大小順序排列后中間數(shù)的值。從圖4 可看出,初始數(shù)據(jù)中分支e18的風(fēng)量最大,都在1 000 m3/min 以上,分支e14的風(fēng)量最小,最大值不超過200 m3/min,各分支風(fēng)量數(shù)據(jù)差距較大。
預(yù)處理后各分支風(fēng)量數(shù)據(jù)箱形圖如圖5 所示。通過對比發(fā)現(xiàn),標(biāo)準(zhǔn)化后風(fēng)量數(shù)據(jù)之間的差距大大縮小。
圖5 預(yù)處理后風(fēng)量數(shù)據(jù)箱形圖Fig.5 Box plot of air volume data after preprocessing
通過交叉驗證和網(wǎng)格搜索對基于SVM、隨機森林、神經(jīng)網(wǎng)絡(luò)的通風(fēng)網(wǎng)絡(luò)故障診斷模型進(jìn)行參數(shù)尋優(yōu)。
交叉驗證是一種評估泛化性能的統(tǒng)計學(xué)方法。在交叉驗證過程中,數(shù)據(jù)被劃分為k折,訓(xùn)練模型時依次使用每一折作為測試集,其他k-1 折作為訓(xùn)練集,最后得到k個精度值。評價交叉驗證精度的一種常用方法是計算平均值,通過k折劃分使得所有類別的數(shù)據(jù)都能被訓(xùn)練,模型更穩(wěn)定,數(shù)據(jù)更全面。
網(wǎng)格搜索是一種模型參數(shù)優(yōu)化技術(shù),其本質(zhì)是對指定參數(shù)值的窮舉搜索。對指定的不同參數(shù)作笛卡爾乘積,得到若干組參數(shù)組合,使用每組參數(shù)訓(xùn)練模型,挑選在交叉驗證中表現(xiàn)最好的參數(shù)作為最優(yōu)參數(shù)。
4.2.1 SVM 模型參數(shù)尋優(yōu)
在基于SVM 的故障診斷模型中,設(shè)C={10,102,103,104,105,106},γ={10-5,10-4,10-3,10-2,10-1,1},經(jīng)過網(wǎng)格搜索和5 折交叉驗證,得到不同參數(shù)組合下SVM 模型交叉驗證平均分?jǐn)?shù)熱力圖,如圖6 所示。可以看出,C=10,γ=10-5時,交叉驗證平均分?jǐn)?shù)最低,只有0.545 0;隨著C和γ增大,交叉驗證平均分?jǐn)?shù)也不斷增大,當(dāng)C=104,γ=10-1時,交叉驗證平均分?jǐn)?shù)最高,達(dá)0.905 0;繼續(xù)增大參數(shù)值,交叉驗證平均分?jǐn)?shù)不再增大,說明最優(yōu)參數(shù)為C=104,γ=10-1,該參數(shù)下SVM 模型分類預(yù)測能力最優(yōu)。該結(jié)果驗證了參數(shù)值區(qū)間選取的合理性。
圖6 SVM 模型交叉驗證平均分?jǐn)?shù)熱力圖Fig.6 The heat map of cross-validation average score of SVM model
4.2.2 隨機森林模型參數(shù)尋優(yōu)
在基于隨機森林的故障診斷模型中,設(shè)決策樹個數(shù)p={5,10,15,20,25,30,35},由于輸入特征為18 個分支的風(fēng)量,即M=18。根據(jù)式(3),令q={1,2,3,4,5}。經(jīng)過網(wǎng)格搜索和5 折交叉驗證,得到不同參數(shù)組合下隨機森林模型交叉驗證平均分?jǐn)?shù)熱力圖,如圖7 所示??梢钥闯?,p=5,q=1 時,交叉驗證平均分?jǐn)?shù)最低,只有0.658 0,此時模型相對簡單;隨著決策樹個數(shù)增加和隨機性參數(shù)增大,模型逐漸復(fù)雜化,交叉驗證平均分?jǐn)?shù)不斷增大,當(dāng)p=15,q=4 時,交叉驗證平均分?jǐn)?shù)最高,達(dá)0.855 0;繼續(xù)增大決策樹個數(shù)和隨機性參數(shù)值,交叉驗證平均分?jǐn)?shù)不再增大。
圖7 隨機森林模型交叉驗證平均分?jǐn)?shù)熱力圖Fig.7 The heat map of cross-validation average score of random forest model
4.2.3 神經(jīng)網(wǎng)絡(luò)模型參數(shù)尋優(yōu)
通過實驗研究單隱層條件下隱含層節(jié)點數(shù)和正則化參數(shù)對分類準(zhǔn)確率的影響。輸入數(shù)據(jù)為18 個風(fēng)速傳感器的風(fēng)量,輸出數(shù)據(jù)為5 個巷道分支編號,即m=18,n=5,根據(jù)式(4),設(shè)隱含層節(jié)點數(shù)t={6,7,8,9,10,11,12,13,14,15,16,17,18},正則化參數(shù)α={10-6,10-5,10-4,10-3,10-2,10-1}。經(jīng)過網(wǎng)格搜索和5 折交叉驗證,得到不同參數(shù)組合下神經(jīng)網(wǎng)絡(luò)模型交叉驗證平均分?jǐn)?shù)熱力圖,如圖8 所示??梢钥闯?,t=6,α=10-5時,交叉驗證平均分?jǐn)?shù)最低,只有0.828 0;隨著隱含層節(jié)點數(shù)量增加,模型逐漸變得復(fù)雜,當(dāng)t=14,α=10-5時,交叉驗證平均分?jǐn)?shù)最高,達(dá)0.915 0,此時神經(jīng)網(wǎng)絡(luò)模型分類預(yù)測能力最好。
圖8 神經(jīng)網(wǎng)絡(luò)模型交叉驗證平均分?jǐn)?shù)熱力圖Fig.8 The heat map of cross-validation average score of neural network model
3 種故障診斷模型在訓(xùn)練集和測試集上的準(zhǔn)確率見表3??煽闯龌谏窠?jīng)網(wǎng)絡(luò)的通風(fēng)網(wǎng)絡(luò)故障診斷模型效果最好,泛化能力最強。
表3 故障診斷模型準(zhǔn)確率比較Table 3 Comparison of accuracy of fault diagnosis models
3 種故障診斷模型在測試集上對分支e8,e10,e15,e16,e55的預(yù)測準(zhǔn)確率如圖9 所示??梢钥闯?,神經(jīng)網(wǎng)絡(luò)對5 個分支的預(yù)測準(zhǔn)確率均為最高,進(jìn)一步驗證了神經(jīng)網(wǎng)絡(luò)模型優(yōu)秀的泛化性能。
圖9 故障診斷模型在各分支上的預(yù)測準(zhǔn)確率Fig.9 Prediction accuracy of fault diagnosis model on each branch
為了進(jìn)一步比較3 種故障診斷模型的準(zhǔn)確率,在陜煤集團(tuán)神木張家峁煤礦進(jìn)行現(xiàn)場驗證。依次調(diào)節(jié)22201 運輸巷風(fēng)窗FC-2-2-001、22202 運輸巷風(fēng)窗FC-2-2-002、22203 運輸巷風(fēng)窗FC-2-2-003 過風(fēng)面積,監(jiān)測不同狀態(tài)下2-2煤風(fēng)窗附近8 個測風(fēng)站的風(fēng)量,共獲取160 組數(shù)據(jù)。將其中的75% 劃分為訓(xùn)練集,25%劃分為測試集,對3 種故障診斷模型進(jìn)行訓(xùn)練和測試,結(jié)果見表4??梢钥闯觯窠?jīng)網(wǎng)絡(luò)模型在訓(xùn)練集和測試集上的準(zhǔn)確率均為最高。
表4 3 種故障診斷模型準(zhǔn)確率Table 4 Accuracy of three fault diagnosis models
隨機調(diào)節(jié)2-2煤運輸巷3 個風(fēng)窗的過風(fēng)面積,監(jiān)測風(fēng)窗附近8 個測風(fēng)站的風(fēng)量,共收集120 組新數(shù)據(jù),輸入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測,3 個風(fēng)窗故障位置診斷結(jié)果散點圖如圖10 所示,其中風(fēng)窗序號1,2,3 分別表示FC-2-2-001,F(xiàn)C-2-2-002,F(xiàn)C-2-2-003??梢钥闯?,風(fēng)窗FC-2-2-002 的40 個故障樣本全部預(yù)測正確;風(fēng)窗FC-2-2-001 的40 個故障樣本中,有1 個樣本被誤判為風(fēng)窗FC-2-2-002 的樣本,其余全部預(yù)測正確;風(fēng)窗FC-2-2-003 的40 個故障樣本中,有1 個樣本被誤判為風(fēng)窗FC-2-2-002 的樣本,其余全部預(yù)測正確。對3 個風(fēng)窗故障位置的診斷結(jié)果統(tǒng)計見表5,可見,基于神經(jīng)網(wǎng)絡(luò)的通風(fēng)網(wǎng)絡(luò)故障診斷模型準(zhǔn)確率達(dá)0.98,進(jìn)一步驗證了其可靠性。
圖10 故障位置診斷結(jié)果散點圖Fig.10 Scatter plot of fault location diagnosis results
表5 故障位置診斷結(jié)果統(tǒng)計Table 5 Statistics of fault location diagnosis results
(1)在通風(fēng)網(wǎng)絡(luò)管道模型實驗平臺上收集通風(fēng)數(shù)據(jù),分別建立基于SVM、隨機森林、神經(jīng)網(wǎng)絡(luò)的通風(fēng)網(wǎng)絡(luò)故障診斷模型,并運用網(wǎng)格搜索對參數(shù)進(jìn)行遍歷尋優(yōu),得出神經(jīng)網(wǎng)絡(luò)模型在隱含層節(jié)點數(shù)量為14、正則化參數(shù)為10-5時,故障診斷準(zhǔn)確率最高,泛化能力最好。
(2)將基于SVM、隨機森林、神經(jīng)網(wǎng)絡(luò)的通風(fēng)網(wǎng)絡(luò)故障診斷模型應(yīng)用到張家峁煤礦現(xiàn)場數(shù)據(jù)集,得出3 種模型在測試集上的故障診斷準(zhǔn)確率分別為0.86,0.90 和0.96。收集120 組新的通風(fēng)數(shù)據(jù)并輸入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行故障預(yù)測,準(zhǔn)確率達(dá)0.98,進(jìn)一步驗證了神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確性和可靠性。