汝彥冬,呂興鳳,郭繼坤,張洪全,陳麗娟
(1.黑龍江科技大學(xué) 電子與信息工程學(xué)院, 哈爾濱 150027; 2.黑龍江大學(xué) 計(jì)算機(jī)學(xué)院, 哈爾濱 150080)
煤與瓦斯突出是在壓力作用下,短時(shí)間內(nèi)粉碎的煤與瓦斯突然向采掘空間大量噴出的現(xiàn)象[1],煤與瓦斯突出給煤礦安全生產(chǎn)和井下工作人員的生命安全帶來(lái)了極大威脅.我國(guó)是煤與瓦斯突出災(zāi)害嚴(yán)重的國(guó)家之一[2],迄今為止還不能有效遏制煤與瓦斯突出事故的發(fā)生[3].因此,預(yù)測(cè)煤與瓦斯突出,對(duì)于煤礦安全生產(chǎn)意義重大.
很多學(xué)者根據(jù)煤與瓦斯突出的主要影響因素,提出預(yù)測(cè)方法,其中最常采用的方法是提取和煤與瓦斯突出關(guān)系密切的特征數(shù)據(jù),利用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè)[4].數(shù)據(jù)分為事故數(shù)據(jù)和非事故數(shù)據(jù),實(shí)際當(dāng)中非事故數(shù)據(jù)很容易得到,數(shù)據(jù)量大并且完整,事故發(fā)生后很難找到事故數(shù)據(jù)導(dǎo)致事故數(shù)據(jù)較少[5].在實(shí)際應(yīng)用中,收集到的數(shù)據(jù)經(jīng)常缺少部分變量,導(dǎo)致數(shù)據(jù)不完整[6],從而導(dǎo)致這些預(yù)測(cè)系統(tǒng)精度低、不穩(wěn)定和易過(guò)擬合等問(wèn)題.因此,本文選擇對(duì)煤與瓦斯關(guān)系密切的5個(gè)指標(biāo)作為特征數(shù)據(jù),對(duì)數(shù)據(jù)中的異常值進(jìn)行處理,針對(duì)數(shù)據(jù)中缺少變量的問(wèn)題,采用多種方法完成了缺失數(shù)據(jù)的插補(bǔ)工作,采用多種機(jī)器學(xué)習(xí)方法完成煤與瓦斯突出的預(yù)測(cè),通過(guò)實(shí)驗(yàn)找出最適合煤與瓦斯突出預(yù)測(cè)的數(shù)據(jù)插補(bǔ)方法和預(yù)測(cè)模型.
本文設(shè)計(jì)了煤與瓦斯突出預(yù)測(cè)系統(tǒng),結(jié)構(gòu)框圖如圖1所示.建立基于完整事故和非事故數(shù)據(jù)的訓(xùn)練集,并建立預(yù)測(cè)模型,應(yīng)用在煤與瓦斯突出預(yù)測(cè)任務(wù)中.對(duì)現(xiàn)場(chǎng)采集的數(shù)據(jù),完成數(shù)據(jù)預(yù)處理后,利用預(yù)測(cè)模型完成事故和非事故的預(yù)測(cè).根據(jù)煤礦安全專家的建議,將預(yù)測(cè)時(shí)采用的數(shù)據(jù)和預(yù)測(cè)結(jié)果補(bǔ)充到訓(xùn)練集,擴(kuò)大訓(xùn)練集的容量,定期更新預(yù)測(cè)模型,讓預(yù)測(cè)模型泛化性更強(qiáng).
煤與瓦斯突出是多因素相互耦合的突發(fā)性動(dòng)力災(zāi)害,成因復(fù)雜,影響因素多[7].本文根據(jù)現(xiàn)有的研究成果,認(rèn)為影響煤與瓦斯突出的因素包括煤層地質(zhì)條件、煤體自身的物理力學(xué)性質(zhì)及煤體中所含的瓦斯情況[8],選擇瓦斯含量、瓦斯壓力、孔隙率、煤層堅(jiān)固系數(shù)和瓦斯放散初速度作為數(shù)據(jù)特征[9].
圖1 煤與瓦斯突出預(yù)測(cè)結(jié)構(gòu)框圖Figure 1 The Structure of coal and gas outburst prediction
在煤與瓦斯突出預(yù)測(cè)中,異常值和缺失值是影響數(shù)據(jù)質(zhì)量的主要原因,數(shù)據(jù)質(zhì)量直接影響了預(yù)測(cè)性能[10].為此,提高數(shù)據(jù)質(zhì)量對(duì)提高煤與瓦斯分類性能意義重大.本文通過(guò)數(shù)據(jù)預(yù)處理提高數(shù)據(jù)的質(zhì)量.數(shù)據(jù)預(yù)處理方法如圖2所示.
圖2 數(shù)據(jù)預(yù)處理框圖Figure 2 The Structure of data preprocessing
首先檢查5個(gè)特征缺失的變量個(gè)數(shù),如果缺失變量個(gè)數(shù)大于2個(gè),則認(rèn)為數(shù)據(jù)質(zhì)量達(dá)不到要求,直接刪除該數(shù)據(jù),否則,采用異常值檢測(cè)方法,檢查每個(gè)屬性是否存在異常值,如果存在異常值,則認(rèn)為異常值的存在會(huì)影響整體的檢測(cè)效果,把異常值刪除掉后繼續(xù)檢查缺失變量個(gè)數(shù).如果缺失值個(gè)數(shù)為1或者2,則采用數(shù)據(jù)插補(bǔ)方法完成數(shù)據(jù)插補(bǔ),否則,拋棄該數(shù)據(jù).
1.3.1 異常值處理
實(shí)際當(dāng)中由于設(shè)備精度的限制、噪音的干擾或者其他原因,存在數(shù)據(jù)異常的情況,這種情況下,必須對(duì)數(shù)據(jù)進(jìn)行糾正,否則異常數(shù)據(jù)會(huì)直接影響分類性能.為此,本文采用拉依達(dá)完成異常數(shù)據(jù)的處理工作[11].
拉依達(dá)準(zhǔn)則描述如下:當(dāng)?shù)趇點(diǎn)樣本值Xi滿足:
(1)
(2)
(3)
本文根據(jù)拉依達(dá)準(zhǔn)則完成數(shù)據(jù)檢查,如果數(shù)據(jù)顯示為異常數(shù)據(jù),則刪除該數(shù)據(jù),繼續(xù)檢查缺失變量值個(gè)數(shù),如果達(dá)到3,則認(rèn)為該數(shù)據(jù)質(zhì)量達(dá)不到處理要求,將其刪除.
1.3.2 缺失值插補(bǔ)
數(shù)據(jù)插補(bǔ)算法分成2類:一類是基于統(tǒng)計(jì)學(xué)的;另一類是基于機(jī)器學(xué)習(xí)模型的[12].不同插補(bǔ)方法有各自的優(yōu)勢(shì)和不同的應(yīng)用場(chǎng)合,本文選擇統(tǒng)計(jì)學(xué)中具備代表性的均值插補(bǔ)、多重插補(bǔ)和機(jī)器學(xué)習(xí)中具有代表性的K近鄰插補(bǔ)、隨機(jī)森林插補(bǔ)完成數(shù)據(jù)插補(bǔ).均值插補(bǔ)就是計(jì)算該變量的數(shù)值平均值,并將其作為缺失值的插補(bǔ)值.多值插補(bǔ)是在同一插補(bǔ)算法下對(duì)缺失值插補(bǔ)M次,得到M個(gè)完整數(shù)據(jù)集,然后根據(jù)融合準(zhǔn)則計(jì)算最后插補(bǔ)結(jié)果[13].隨機(jī)森林?jǐn)?shù)據(jù)填補(bǔ)就是將缺失值作為未知量,將其他值作為特征屬性,將通過(guò)隨機(jī)森林模型預(yù)測(cè)得到的值作為缺失值[14].K近鄰插補(bǔ)基本思想是:如果一個(gè)樣本在特征空間中的K個(gè)最相似(即在特征空間中最接近)的樣本中的大多數(shù)屬于一個(gè)類別,那么該樣本也很有可能屬于這個(gè)類別,將這K條記錄的加權(quán)均值作為缺失值[15].
本文針對(duì)事故數(shù)據(jù)和非事故數(shù)據(jù)采用不同的方法進(jìn)行處理.在初始訓(xùn)練集建立時(shí),非事故數(shù)據(jù)量大并且完整,遇到數(shù)據(jù)不完整情況,直接刪除數(shù)據(jù),事故數(shù)據(jù)采用數(shù)據(jù)預(yù)處理方法完成數(shù)據(jù)處理.系統(tǒng)實(shí)際運(yùn)行時(shí),對(duì)所有接收到的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理.本文共選擇246條非事故數(shù)據(jù)和62條事故數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),部分?jǐn)?shù)據(jù)如表1所示.表中“-”表示數(shù)據(jù)缺失.
表1 數(shù)據(jù)示例(部分)
本文分別采用采用均值插補(bǔ)、多重插補(bǔ)、隨機(jī)森林插補(bǔ)、K近鄰數(shù)據(jù)插補(bǔ)方法完成數(shù)據(jù)的插補(bǔ),對(duì)缺失數(shù)據(jù)的插補(bǔ)結(jié)果如表2所示.
從表2可以看出,采用4種方法分別完成了缺失數(shù)據(jù)的插補(bǔ)工作,從數(shù)值上看,4種數(shù)據(jù)插補(bǔ)方法結(jié)果存在較大差距,具體哪種插補(bǔ)效果更好,迄今為止沒有統(tǒng)一的衡量標(biāo)準(zhǔn),特別是針對(duì)數(shù)據(jù)量很少的事故數(shù)據(jù),最可靠的方法就是通過(guò)和預(yù)測(cè)模型配合使用,通過(guò)預(yù)測(cè)結(jié)果來(lái)判斷在煤與瓦斯突出預(yù)測(cè)任務(wù)中數(shù)據(jù)插補(bǔ)方法的優(yōu)劣.
表2 數(shù)據(jù)缺失值插補(bǔ)結(jié)果(示例)
本文采用精確度、敏感度、特異度作為模型性能評(píng)價(jià)指標(biāo).三種評(píng)價(jià)指標(biāo)定義如下:
(4)
(5)
(6)
其中:TP是正確分類非事故數(shù)據(jù)的個(gè)數(shù),FP是把非事故數(shù)據(jù)錯(cuò)分成事故數(shù)據(jù)的個(gè)數(shù),FN是把事故數(shù)據(jù)錯(cuò)分成非事故數(shù)據(jù)的個(gè)數(shù),TN是正確分類事故數(shù)據(jù)的個(gè)數(shù).
本文采用機(jī)器學(xué)習(xí)方法中具有代表性的隨機(jī)森林,支持向量機(jī)和K近鄰三種模型完成預(yù)測(cè),采用網(wǎng)格搜索法對(duì)預(yù)測(cè)模型參數(shù)進(jìn)行優(yōu)化,采用10折交叉驗(yàn)證的方法進(jìn)行交叉驗(yàn)證,使用R語(yǔ)言實(shí)現(xiàn)預(yù)測(cè),預(yù)測(cè)性能如表3所示.
表3 預(yù)測(cè)性能(%)
從表3可以看出,如果采用相同的數(shù)據(jù)插補(bǔ)方法,隨機(jī)森林模型完成的預(yù)測(cè)性能整體上要優(yōu)于支持向量機(jī)模型和K近鄰模型.采用相同的預(yù)測(cè)模型,利用隨機(jī)森林?jǐn)?shù)據(jù)插補(bǔ)法完成數(shù)據(jù)插補(bǔ)得到的性能最好.綜上所述,在煤與瓦斯突出預(yù)測(cè)應(yīng)用中,采用隨機(jī)森林模型完成數(shù)據(jù)插補(bǔ)后利用隨機(jī)森林模型完成的預(yù)測(cè)性能最好.
本文選取了和煤與瓦斯突出相關(guān)的5個(gè)特征,完成了特征數(shù)據(jù)的異常值處理和缺失變量的數(shù)據(jù)插補(bǔ)工作,分別采用隨機(jī)森林,支持向量機(jī)和K近鄰三種模型完成煤與瓦斯突出預(yù)測(cè).實(shí)驗(yàn)結(jié)果表明,采用隨機(jī)森林作為數(shù)據(jù)插補(bǔ)方法和預(yù)測(cè)模型的煤與瓦斯突出預(yù)測(cè)系統(tǒng),取得了精度98.94%、敏感度98.67%和特異度100%的優(yōu)越性能,是所有插補(bǔ)方法和預(yù)測(cè)模型組合中性能最好的,可以應(yīng)用在煤礦安全生產(chǎn)中.