閆鵬程, 尚松行, 周孟然, 胡 鋒, 劉 瑜
1. 安徽理工大學(xué), 深部煤礦采動(dòng)響應(yīng)與災(zāi)害防控國家重點(diǎn)實(shí)驗(yàn)室, 安徽 淮南 232001 2. 安徽理工大學(xué)電氣與信息工程學(xué)院, 安徽 淮南 232001
礦井水害是煤礦生產(chǎn)的五大災(zāi)害之一, 對(duì)煤礦安全威脅巨大[1-3]。 近年來隨著國家對(duì)煤礦水害的重視, 水害事故無論是從發(fā)生次數(shù)上, 還是傷亡人數(shù)上都有大幅降低。 然而隨著大多數(shù)礦井的采掘深度逐漸加深, 水文地質(zhì)環(huán)境隨之愈加復(fù)雜, 開采規(guī)模與強(qiáng)度也逐漸加大(年產(chǎn)已達(dá)1 500萬t), 尤其是特厚煤層超大采高(15~20 m)等綜放工作面裝備的使用, 更是加劇了井下水害的發(fā)生幾率[4]。 因此如何快速準(zhǔn)確的識(shí)別煤礦水源, 無論是對(duì)于煤礦水災(zāi)預(yù)警, 還是對(duì)于災(zāi)后救援都具有重大意義[5-7]。
針對(duì)煤礦水源識(shí)別的研究, 國內(nèi)外專家采用了多種方法, 如QLT法[8]、 同位素法[9-10]、 代表離子法[11]等, 研究較多的又以代表離子法為主。 如張淑瑩等采用基于獨(dú)立性權(quán)-灰色關(guān)聯(lián)度理論的突水水源判別[12], 毛志勇等采用基于KPCA-MPSO-ELM的礦井突水水源判別模型[13], 劉國偉等采用多元統(tǒng)計(jì)分析對(duì)濱海礦區(qū)進(jìn)行水源識(shí)別[14], 都取得了較好的效果。 但是這些代表離子檢測的過程過于漫長, 一般實(shí)驗(yàn)室檢測需要1 h, 識(shí)別精度相對(duì)較低, 且識(shí)別一般以單一水源為主, 對(duì)混合水樣識(shí)別沒有涉及。
針對(duì)上述問題, 本課題組提出使用激光誘導(dǎo)熒光光譜技術(shù)進(jìn)行煤礦水源類型識(shí)別, 以405 nm激光激發(fā)待測水樣, 獲取熒光光譜, 通過SG、 Normalize等多種預(yù)處理方法進(jìn)行處理, 并對(duì)數(shù)據(jù)進(jìn)行PCA降維, 以簡化模型, 縮短識(shí)別時(shí)間, 對(duì)降維后的數(shù)據(jù)分別進(jìn)行線性LDA以及非線性RBF-SVM模型進(jìn)行識(shí)別對(duì)比, 為煤礦突水在線預(yù)警提供理論依據(jù)。
水源樣本采集地為淮南礦區(qū)謝橋煤礦, 以全國煤礦水害事故多發(fā)水源-老空水, 謝橋煤礦常見水源-砂巖水, 以及兩者按比例混合的5種水樣(分別為老空水與砂巖水混合比例10∶7, 10∶4, 10∶10, 7∶10, 4∶10), 共7種水樣為待測樣本, 按混合比例以此記為a, b, c, d, e, f, g。 每種水樣樣本皆采集30個(gè), 共210個(gè), 存儲(chǔ)于遮光玻璃瓶中。
激光誘導(dǎo)熒光光譜系統(tǒng), 包括(1)405 nm單模激光器(北京華源拓達(dá)), 功率設(shè)置100 mW; (2)浸入式熒光探頭(廣州標(biāo)旗光電FPB-405-V3); (3)微型光纖光譜儀(USB2000+, 美國海洋公司), 積分時(shí)間1 s, 光譜范圍340~1 020 nm, 光譜分辨率1 nm。 為避免室內(nèi)照明對(duì)實(shí)驗(yàn)的影響, 樣本放置于暗室中進(jìn)行激光激發(fā)。
數(shù)據(jù)采集由SpecSuite軟件進(jìn)行, 建模及數(shù)據(jù)處理環(huán)節(jié)在Matlab2018a環(huán)境下進(jìn)行。
鑒于檢測水樣樣本時(shí)可能會(huì)出現(xiàn)的高頻、 背景噪聲等, 對(duì)獲取的熒光光譜數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。 所使用的方法包含SG、 Normalize、 Gapsegment求導(dǎo)、 Detrend、 MSC, 通過后續(xù)對(duì)比, 以獲取最佳預(yù)處理方法。
水樣光譜冗余度及維度較高, 尤其是5種混合水樣譜線混雜, 因此需要采用降維算法進(jìn)行數(shù)據(jù)特征提取, 以除去噪聲與冗余特征, 達(dá)到后續(xù)識(shí)別的快速性。 主成分分析算法(PCA)在數(shù)據(jù)壓縮, 消除冗余等領(lǐng)域有著廣泛的使用。 PCA的主體內(nèi)容是把一個(gè)n維的矩陣通過正交變換投影到k維上, 投影后的變量即為主成分。
識(shí)別模型采用不同方法, 即針對(duì)線性數(shù)據(jù)的線性判別式分析(LDA), 以及針對(duì)非線性數(shù)據(jù)的徑向基核函數(shù)支持向量機(jī)(RBF-SVM)分別進(jìn)行識(shí)別, 以對(duì)比獲取最佳識(shí)別模型。
隨機(jī)使用每種樣本的5/6(25個(gè))作為建模集, 剩余1/6(5個(gè))作為驗(yàn)證集, 即建模集樣本175個(gè), 驗(yàn)證集樣本35個(gè)。
使用SG、 Normalize、 Gapsegment求導(dǎo)、 Detrend、 MSC對(duì)原始光譜進(jìn)行處理, 加上原始光譜(Original), 共獲得6組光譜數(shù)據(jù), 如圖1所示。 由圖可以看出, 水樣光譜數(shù)據(jù)在340~420及700~1 020 nm波段趨于一致, 主要區(qū)別處在420~700 nm波段, 且波峰點(diǎn)皆集中在此波段內(nèi)。 隨著老空水比例的增加, 熒光光譜強(qiáng)度有所增強(qiáng), 這是因?yàn)榛規(guī)r水所處地層較深, 導(dǎo)致有機(jī)物含量較少, 其內(nèi)部成分主要以無機(jī)離子為主, 而老空水屬于人為活動(dòng)區(qū)域, 其水中所含成分較為復(fù)雜, 因此熒光光譜特征較為明顯。 不同水樣的熒光光譜差異明顯, 其根本原因是水中所含物質(zhì)成分、 濃度的不同導(dǎo)致的, 這也是進(jìn)行煤礦水源類型識(shí)別研究的理論基礎(chǔ)。
對(duì)比預(yù)處理前后光譜圖可以發(fā)現(xiàn), 使用SG預(yù)處理后的光譜組間間距有所增加, Normalize和Detrend預(yù)處理后的光譜數(shù)據(jù)較原始數(shù)據(jù)組間間距下降, Gapsegment和MSC預(yù)處理后的組間間距最不明顯, 其中又以Gapsegment處理后的效果最差, 這是由于在求導(dǎo)的過程中對(duì)部分噪聲進(jìn)行了放大導(dǎo)致的。
圖1 原始光譜曲線及預(yù)處理后的光譜曲線
對(duì)所有水樣樣本進(jìn)行PCA降維, 作為對(duì)比6種預(yù)處理方式主成分?jǐn)?shù)皆取3, 其累計(jì)貢獻(xiàn)度如圖2所示, 由圖可以看出SG處理后的數(shù)據(jù)在主成分為3的時(shí)候累計(jì)貢獻(xiàn)度最大, 為97.26%; 其次是原始光譜, 為92.38%, Normalize與Detrend累計(jì)貢獻(xiàn)度相差不大, 分別為88.04%和87.59%; MSC為66.41%, Gapsegment 最差, 為22.65%。 由圖3可以看出7種水樣在主成分?jǐn)?shù)為3時(shí)候的得分三維立體分布情況, 在圖3(a), (b), (c)和(e)中, 7種水樣聚類明顯, 而圖3(d)和(f)中, 聚類效果較差。 因此選擇主成分?jǐn)?shù)為3進(jìn)行后續(xù)的建模識(shí)別。
圖2 累計(jì)貢獻(xiàn)度
圖3 不同預(yù)處理方法得分分布圖
對(duì)原始光譜及預(yù)處理后的6種光譜進(jìn)行PCA降維得到的主成分LDA建模進(jìn)行對(duì)比, 結(jié)果如表1所示。 總體來看SG-PCA-LDA的建模集效果最好, 總體正確率為98.86%(173/175); 其次為Original-PCA-LDA, 總體正確率98.29%(172/175); Detrend-PCA-LDA總體正確率97.71%(171/175); Normalize-PCA-LDA總體正確率97.71%(171/175); MSC-PCA-LDA總體正確率93.71%(164/175); Gapsegment-PCA-LDA總體正確率73.71%(129/175)。 出錯(cuò)部分集中于c和d兩種水的互相誤判, 而對(duì)于a和g兩種純水水樣的識(shí)別沒有出現(xiàn)錯(cuò)誤。
表1 不同預(yù)處理方法LDA建模集識(shí)別結(jié)果混淆矩陣
續(xù)表1
Normalizeabcdefga25000000b02500000c00221000d00324000e00002500f00000250g00000025Gapsegmentabcdefga25000000b01713520c01157000d05815000e02001010f000010220g00100025Detrendabcdefga25000000b02500000c00220000d00325000e00102500f00000250g00000025MSCabcdefga25000000b02520000c00184000d00521000e00002500f00000250g00000025
驗(yàn)證集識(shí)別結(jié)果如表2所示, 從表2可以看出除Gapsegment-PCA-LDA識(shí)別模型外, 其他識(shí)別模型整體表現(xiàn)良好, 識(shí)別正確率皆高于90%, 最佳的仍是SG-PCA-LDA模型, 識(shí)別率100%。 出錯(cuò)部分仍以c和d兩種水的互相誤判為主, 對(duì)于a和g兩種純水水樣的識(shí)別仍然沒有出現(xiàn)錯(cuò)誤。
表2 LDA驗(yàn)證集識(shí)別結(jié)果
由上述數(shù)據(jù)可以看出, 煤礦水源的熒光光譜在經(jīng)預(yù)處理、 PCA降維后, 可以使用LDA進(jìn)行識(shí)別, 且SG-PCA-LDA效果較佳, 作為對(duì)比后續(xù)將進(jìn)行煤礦水源熒光光譜的非線性RBF-SVM模型識(shí)別。
對(duì)原始光譜及預(yù)處理后的6種光譜進(jìn)行PCA降維得到的主成分RBF-SVM建模進(jìn)行對(duì)比, 結(jié)果如表3所示。 出錯(cuò)部分集中于c和d兩種水的互相誤判, 而對(duì)于a和g兩種純水水樣的識(shí)別沒有出現(xiàn)錯(cuò)誤。
驗(yàn)證集識(shí)別結(jié)果如圖4所示。 圖4(a)為Original-PCA-RBF-SVM識(shí)別模型, 有1個(gè)b類水被判定為c類, 正確率97.14%(34/35); 圖4(b)為SG-PCA-RBF-SVM識(shí)別模型, 有1個(gè)b類水被判定為c類, 正確率97.14%(34/35); 圖4(c)為Normalize-PCA-RBF-SVM識(shí)別模型, 有1個(gè)b類水被判定為c類, 1個(gè)e類水被判定為f類, 3個(gè)f類被判定為e類, 正確率85.71%(30/35); 圖4(d)為Gapsegment-PCA-RBF-SVM識(shí)別模型, 有1個(gè)b類水被判定為c類, 1個(gè)b類水被判定為e類, 1個(gè)d類水被判定為g類, 2個(gè)e類被判定為f類, 2個(gè)f類被判定為e類, 正確率74.29%(26/35); 圖4(e)為Detrend-PCA-RBF-SVM識(shí)別模型, 有1個(gè)b類水被判定為c類, 1個(gè)e類水被判定為f類, 2個(gè)f類被判定為e類, 正確率88.57%(31/35); 圖4(f)為MSC-PCA-RBF-SVM識(shí)別模型, 有2個(gè)c類水被判定為b類, 2個(gè)d類水被判定為c類, 2個(gè)f類被判定為e類, 正確率82.86%(29/35)。 出錯(cuò)部分相對(duì)LDA模型在種類上有所增加, 但是對(duì)于a和g兩種純水水樣的識(shí)別仍然沒有出現(xiàn)錯(cuò)誤。
表3 RBF-SVM建模集結(jié)果
表3可以看出, 煤礦水源的熒光光譜在經(jīng)預(yù)處理、 PCA降維后, 可以使用RBF-SVM進(jìn)行識(shí)別, 且SG-PCA-RBF-SVM效果較佳。
實(shí)驗(yàn)對(duì)淮南礦區(qū)謝橋煤礦的老空水、 砂巖水以及5種混合水樣的激光誘導(dǎo)熒光光譜進(jìn)行了識(shí)別分析, 選取了不同預(yù)處理方法及不同識(shí)別模型, 得到結(jié)論如下:
(1)煤礦水源在物質(zhì)成分及濃度上的差異反應(yīng)在激光誘導(dǎo)熒光光譜上也會(huì)出現(xiàn)較大差異, 因此可以通過激光誘導(dǎo)熒光技術(shù)進(jìn)行水源的有效識(shí)別。
圖4 RBF-SVM的驗(yàn)證集識(shí)別結(jié)果
(2)SG預(yù)處理是被選擇的幾種預(yù)處理方式中最適宜本地水樣預(yù)處理的方法, 結(jié)合PCA降維得到的3個(gè)主成分, 并分別利用LDA與RBF-SVM進(jìn)行識(shí)別, 驗(yàn)證集分別到達(dá)了100%與97.14%的正確率; 對(duì)比同種預(yù)處理方式不同識(shí)別模型的結(jié)果可以發(fā)現(xiàn), 使用LDA進(jìn)行建模的識(shí)別結(jié)果平均正確率高于使用RBF-SVM進(jìn)行建模。 且對(duì)比RBF-SVM的識(shí)別數(shù)據(jù)可以發(fā)現(xiàn), 驗(yàn)證集較建模集正確率有所下降, 說明該算法在此應(yīng)用中的泛化能力較差, 因此SG-PCA-LDA模型結(jié)合激光誘導(dǎo)熒光技術(shù)是一種較佳的應(yīng)用于本地煤礦水源識(shí)別的方法, 且因?yàn)槭褂昧藬?shù)據(jù)降維, 可以大幅度降低后期識(shí)別模型的運(yùn)算復(fù)雜度, 節(jié)省時(shí)間, 對(duì)于煤礦水源的快速識(shí)別意義重大。
(3)實(shí)驗(yàn)驗(yàn)證了SG-PCA-LDA模型結(jié)合激光誘導(dǎo)熒光技術(shù)用于煤礦水源識(shí)別的可行性, 對(duì)老空水、 砂巖水的純水樣和混合水樣進(jìn)行了識(shí)別, 可以推廣到煤礦其他混合水源的識(shí)別中。