何晨陽,周孟然,閆鵬程
安徽理工大學(xué)電氣與信息工程學(xué)院,安徽 淮南 232001
KNN結(jié)合PCA在激光誘導(dǎo)熒光光譜識(shí)別礦井突水中的應(yīng)用
何晨陽,周孟然*,閆鵬程
安徽理工大學(xué)電氣與信息工程學(xué)院,安徽 淮南 232001
礦井突水的迅速識(shí)別與分類對(duì)于井下水災(zāi)防治工作有著重要的意義。提出一種KNN結(jié)合PCA運(yùn)用在激光誘導(dǎo)熒光光譜快速識(shí)別礦井突水水源中的新方法。利用激光器發(fā)射激光通過可浸入式探頭射入水樣,得到四種突水水樣共80組熒光光譜數(shù)據(jù),再分別對(duì)每組數(shù)據(jù)進(jìn)行預(yù)處理,處理后的數(shù)據(jù)中每種水樣取15組數(shù)據(jù)作為訓(xùn)練集,共60組,其余20組作為預(yù)測(cè)集。利用主成分分析(PCA)對(duì)數(shù)據(jù)進(jìn)行處理,之后在主成分分析的基礎(chǔ)上利用KNN算法進(jìn)行分類識(shí)別。實(shí)驗(yàn)過程中,各預(yù)處理方法在主成分個(gè)數(shù)為2的情況下,進(jìn)行KNN算法分類的正確率都達(dá)到100%。
KNN算法; PCA; 激光誘導(dǎo)熒光; 礦井突水; 水源識(shí)別
井下水災(zāi)是礦井重大災(zāi)害之一。井下水災(zāi)主要體現(xiàn)在突水,礦井突水現(xiàn)象一旦發(fā)生,在短時(shí)間內(nèi),會(huì)淹沒工作設(shè)備和礦井巷道,導(dǎo)致嚴(yán)重的經(jīng)濟(jì)損失,并且可能造成人員的傷亡,礦井突水災(zāi)害目前是發(fā)生的次數(shù)與導(dǎo)致傷亡的人數(shù)僅次于瓦斯事故的礦井第二大災(zāi)害,所以對(duì)于礦井突水的防治工作是井下煤礦安全工作的重中之重。礦井突水發(fā)生時(shí),應(yīng)該及時(shí)找到突水的原因以及突水的水源類別,才能進(jìn)行下一步水災(zāi)預(yù)防的工作[1-6]。目前,礦井突水水源類型的識(shí)別多采用以水化學(xué)識(shí)別為基礎(chǔ)的方法。這種方法獲取水源中的指定離子濃度、電導(dǎo)率以及pH值,再通過建立模型,進(jìn)而得到不同種類的水源。但這種方法耗時(shí)太長(zhǎng),不易于礦井井下突水引發(fā)水災(zāi)的防治工作[7-9]。
鑒于對(duì)礦井突水水災(zāi)防治的及時(shí)性,本文提出LIF技術(shù)與PCA再通過KNN算法識(shí)別礦井突水水源的類型。激光誘導(dǎo)熒光光譜分析(簡(jiǎn)稱LIF)是一種具有很高靈敏度、很快處理速度的光譜分析方法,此方法可以將各個(gè)水樣表現(xiàn)在不同的熒光光譜中,克服了水化學(xué)方法識(shí)別時(shí)間長(zhǎng)的缺點(diǎn),也更好的適應(yīng)礦井下惡劣的環(huán)境[10]。PCA(principal component analysis),主成分分析,因子分析中的一種。K近鄰算法,即KNN算法是最簡(jiǎn)便的數(shù)據(jù)挖掘分類算法之一,應(yīng)用在礦井突水水源識(shí)別中,能夠快速準(zhǔn)確地將未知水樣進(jìn)行分類[11-12]。因此,本文利用LIF技術(shù)得到不同突水水源的分類,再進(jìn)行PCA建模與KNN算法,識(shí)別未知的礦井突水水源。
1.1 材料
礦井突水事故常見的水樣有四種,煤系砂巖裂隙水、第四系沖積層水、奧陶系灰?guī)r巖溶水和采空水。能對(duì)這四種水進(jìn)行分類識(shí)別,進(jìn)而則能對(duì)礦井突水水源進(jìn)行分類識(shí)別。實(shí)驗(yàn)所需的四種水樣來自淮南市新莊孜礦,于2015年4月18日采集。為了實(shí)驗(yàn)的需要,對(duì)不同的水樣采集了20個(gè)樣本并存放在密封完好的避光容器中。
1.2 方法
1.2.1 水樣熒光光譜的采集
水樣熒光光譜的采集采用美國(guó)Ocean Optics公司生產(chǎn)的型號(hào)為USB2000+的激光誘導(dǎo)熒光光譜儀; 科思凱公司生產(chǎn)的型號(hào)為FPB-405-V3的探頭,此探頭為可浸入式,可以直接放入水中進(jìn)行激光照射。
實(shí)驗(yàn)先設(shè)置激光誘導(dǎo)熒光光譜儀的入射激光的功率為120 mW,波長(zhǎng)為405 nm,分辨率設(shè)置為1 nm,光譜儀積分時(shí)間設(shè)置為30 ms,熒光光譜的檢測(cè)范圍設(shè)置為400~800 nm。設(shè)置好后,將探頭浸入存放在避光容器的實(shí)驗(yàn)水樣中,為了避免無關(guān)光對(duì)熒光光譜采集帶來的干擾,以上操作均在暗室中進(jìn)行。
1.2.2 PCA與KNN算法
PCA(principal component analysis),即主成分分析是將數(shù)據(jù)組中多指標(biāo)通過線性變換為少數(shù)的幾個(gè)指標(biāo),得到的少數(shù)新指標(biāo)可以充分表示每一個(gè)數(shù)據(jù)并反映所研究問題的信息。
K最近鄰分類算法,即KNN(K-nearest neighbor)是最簡(jiǎn)便的數(shù)據(jù)挖掘分類算法技術(shù)之一,是指樣本的k個(gè)最鄰近的數(shù)據(jù),則每個(gè)樣本最鄰近的數(shù)據(jù)可以用來表示該樣本的類型。在N個(gè)已知分類的樣本中,找出未知樣本x的k個(gè)最近鄰。在N個(gè)樣本中,有N1個(gè)屬于q1類的樣本,有N2個(gè)屬于q2類的樣本,…,有Nc個(gè)屬于qc類的樣本。其中k1,k2,…,kc是k個(gè)近鄰樣本中屬于q1,q2,…,qc類的樣本數(shù)。于是判別函數(shù)為
PCA結(jié)合KNN算法對(duì)利用LIF技術(shù)得到的突水水源光譜圖進(jìn)行分類,步驟如下:
(1)將訓(xùn)練集水源熒光光譜圖樣本數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中。
(2)建立水樣的主成分模型,選取最優(yōu)主成分個(gè)數(shù)m,計(jì)算出每一個(gè)訓(xùn)練集樣本水樣的m個(gè)主成分值,對(duì)于每一個(gè)樣本水樣都可以用m個(gè)主成分值來表示。
(3)對(duì)于未知的水源樣本,計(jì)算出未知樣本與各訓(xùn)練集樣本的距離。本實(shí)驗(yàn)采用Euclidean距離作為各樣本間的距離,其計(jì)算公式為
其中,X=(x1,x2,…,xm)和Y=(y1,y2,…,ym)分別表示未知樣本水和已知樣本水的數(shù)據(jù),m表示樣本主成分的個(gè)數(shù)。
(4)找到與未知樣本點(diǎn)最近的k個(gè)訓(xùn)練集樣本,未知樣本的類就是在這k個(gè)樣本中出現(xiàn)最多的類。
2.1 光譜預(yù)處理
在測(cè)量光譜的過程中,會(huì)遇到諸多因素影響光譜的獲取,使得到的光譜有一定的不確定度。在激光誘導(dǎo)熒光光譜分析中,由于提取光譜數(shù)據(jù)需要在暗室中進(jìn)行,儀器和環(huán)境的噪聲都會(huì)影響光譜數(shù)據(jù)的真實(shí)度。
為了減少熒光光譜數(shù)據(jù)的噪聲,降低光譜的誤差,采用三種預(yù)處理方法,分別為Wavelet transform法、Normalization法和Mean centering法。實(shí)驗(yàn)中對(duì)淮南市新莊孜礦煤系砂巖裂隙水(砂巖水)、第四系沖積層水(沖積層水)、奧陶系灰?guī)r巖溶水(奧灰水)和采空水共四種水源進(jìn)行熒光光譜采集,每種水樣采集20個(gè)樣本光譜,一共80組水樣光譜。
如圖1所示,原始光譜圖與三種預(yù)處理方法得到的光譜圖相比較,原始光譜圖和經(jīng)過Wavelet transform法以及Normalization法處理的熒光光譜圖去噪效果良好,經(jīng)過Mean centering法處理的光譜圖去噪效果異常,改變了光譜的波形特征,使光譜分類難以進(jìn)行。
圖1 光譜預(yù)處理
2.2 主成分分析
在光譜預(yù)處理過程中,Mean centering法處理后的光譜圖與其他兩種方法及原始光譜比較來說,Mean centering法處理效果不好。所以,實(shí)驗(yàn)選擇Wavelet transform法、Normalization法和原始光譜三種光譜進(jìn)行主成分分析。
在80組水樣光譜中,對(duì)每種水源隨機(jī)選取15組數(shù)據(jù)作為實(shí)驗(yàn)的訓(xùn)練集,剩下5組數(shù)據(jù)作為實(shí)驗(yàn)的預(yù)測(cè)集。其中,訓(xùn)練集共60組,預(yù)測(cè)集共20組。
對(duì)原始光譜和兩種預(yù)處理共三種光譜的訓(xùn)練集數(shù)據(jù)進(jìn)行主成分分析,選取主成分個(gè)數(shù)為8。對(duì)于各處理方法,如表1所示,記錄了主成分1和主成分2的累計(jì)貢獻(xiàn)度,并且都已超過95.3%,所以選擇主成分?jǐn)?shù)為2即可表示出光譜數(shù)據(jù)的信息特征。其中,累計(jì)貢獻(xiàn)度最高的是Wavelet transform法處理后的光譜,達(dá)到了96.814%,最低的是未經(jīng)過處理的原始光譜,為95.375%。
表1 光譜的累計(jì)貢獻(xiàn)度
得到各訓(xùn)練集的第1主成分和第2主成分值,即可得到主成分的載荷圖,如圖2所示,分別為原始光譜、Wavelet transform法處理后的光譜和Normalization法處理后的光譜主成分載荷圖。從主成分載荷圖中可以看出,奧灰水和沖積層水的距離比較近,而砂巖水和采空水到?jīng)_積層水的距離相對(duì)比較遠(yuǎn)。由于各個(gè)煤礦井下的地勢(shì)和環(huán)境等有很大的差別,使得不同礦井的水源在水質(zhì)上和離子成分上都有很大的區(qū)別。奧灰水是距今5億年前的奧陶紀(jì)時(shí)期灰?guī)r中含的水; 沖積層水隨著地理位置和礦井周邊環(huán)境的差異而變現(xiàn)出不同的特征; 砂巖水主要為頂板砂巖裂隙水,砂巖水受影響于巖層周圍有機(jī)質(zhì)對(duì)巖層的侵蝕、水中離子的交換的作用; 采空水由于水質(zhì)流動(dòng)性和礦井年份的長(zhǎng)短以及補(bǔ)給水源的區(qū)別,而呈現(xiàn)的水質(zhì)特征復(fù)雜。所以各種水源的熒光光譜圖以及主成分載荷圖都有一定的差別,在熒光光譜圖中各光譜之間表現(xiàn)出的差異越大,在主成分載荷圖中之間的距離也隨之變大。
由圖2也可以看出,四種水樣的聚類效果均較為明顯。三種處理法后的主成分載荷圖之間對(duì)比,可發(fā)現(xiàn),聚類效果最好的是經(jīng)過Wavelet transform法處理過的光譜,奧灰水和沖積層水的聚類效果比其他兩種方法都好。聚類效果最差的是未處理的原始光譜,對(duì)于砂巖水和采空水的聚類效果不是很好。
圖2 主成分載荷圖
2.3 KNN算法分類
以主成分分析的主成分1、2為主要分類依據(jù),20組預(yù)測(cè)集樣本的主成分載荷分布如圖2所示。對(duì)于每一個(gè)預(yù)測(cè)集的水源樣本,計(jì)算出其與各訓(xùn)練集樣本的Euclidean距離。一般實(shí)際操作中k取較大的值為宜,在此實(shí)驗(yàn)中對(duì)k分別取21,23,25進(jìn)行對(duì)比操作,即對(duì)每一個(gè)預(yù)測(cè)集水源樣本分別取與其Euclidean距離最近的21,23,25個(gè)訓(xùn)練集樣本作為判別未知水樣的依據(jù)。用KNN算法對(duì)各個(gè)水樣進(jìn)行分類識(shí)別,表2為分類識(shí)別的結(jié)果。
表2 KNN算法分類識(shí)別結(jié)果
由表2可以看出,以上三種處理方法處理后的熒光光譜的識(shí)別效果都很好。利用KNN算法分類中,只有未處理的預(yù)測(cè)集熒光光譜在k等于21時(shí),出現(xiàn)了一次錯(cuò)誤,經(jīng)過Wavelet transform法和Normalization法預(yù)處理的正確率均為100%。
對(duì)來自同一煤炭礦井的四種不同水樣進(jìn)行激光誘導(dǎo)熒光光譜分析,嘗試?yán)肞CA結(jié)合KNN算法進(jìn)行分析識(shí)別。通過先對(duì)水樣熒光光譜進(jìn)行不同預(yù)處理方法,而后分別對(duì)處理后的數(shù)據(jù)進(jìn)行主成分分析以及KNN算法分類。實(shí)驗(yàn)可見,經(jīng)過Wavelet transform和Normalization法處理后再進(jìn)行分類的效果均很好,主成分分析結(jié)合KNN算法運(yùn)用在激光誘導(dǎo)熒光光譜分析識(shí)別礦井突水的方法具有一定的可行性和可靠性,在礦井突水的熒光光譜識(shí)別中具有很好的應(yīng)用前景。
[1] DONG Shu-ning(董書寧). Journal of China Coal Society(煤炭學(xué)報(bào)), 2010, 35(1): 66.
[2] WU Qiang, CUI Fang-peng, ZHAO Su-qi,et al(武 強(qiáng), 崔芳鵬, 趙蘇啟,等). Journal of China Coal Society(煤炭學(xué)報(bào)), 2013, 38(4): 561.
[3] LING Biao-can(凌標(biāo)燦). China Safety Science Journal(中國(guó)安全科學(xué)學(xué)報(bào)), 2004, 14(7): 64.
[4] FU Gui, YANG Chun, YIN Wen-tao(傅 貴, 楊 春, 殷文韜). China Safety Science Journal(中國(guó)安全科學(xué)學(xué)報(bào)), 2014, 24(5): 56.
[5] BAI Yu-jie(白玉杰). Coal Technology(煤炭技術(shù)), 2009, 28(11): 85.
[6] WANG Jun-cai, WU Rui-ye, XU Xing-hai(王均才, 吳瑞葉, 徐興海). Coal Science and Technology(煤炭科學(xué)技術(shù)), 2012, 40(8): 65.
[7] ZHOU Jian, SHI Xiu-zhi, WANG Huai-yong(周 健, 史秀志, 王懷勇). Journal of China Coal Society(煤炭學(xué)報(bào)), 2010, (2): 278.
[8] YAO Jie, TONG Min-ming, LIU Tao,et al(姚 潔, 童敏明, 劉 濤,等). Safety in Coal Mines(煤礦安全), 2013, 44(2): 29.
[9] YANG Hai-jun, WANG Guang-cai(楊海軍, 王廣才). Coal Geology & Exploration(煤田地質(zhì)與勘探), 2012, 40(3): 48.
[10] LIU Xiao-hua, CHEN Si-ying, ZHANG Yin-chao,et al(劉曉華, 陳思穎, 張寅超,等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2014, 34(8): 2148.
[11] WANG Xin-yi, XU Tao, HUANG Dan(王心義, 徐 濤, 黃 丹). Journal of China Coal Society(煤炭學(xué)報(bào)), 2011, 36(8): 1354.
[12] LU Jin-tao, LI Xi-bing, GONG Feng-qiang,et al(魯金濤, 李夕兵, 宮鳳強(qiáng),等). China Safety Science Journal(中國(guó)安全科學(xué)學(xué)報(bào)), 2012, 22(7): 109.
(Received Aug. 30, 2015; accepted Dec. 20, 2015)
*Corresponding author
Application of the Identification of Mine Water Inrush with LIF Spectrometry and KNN Algorithm Combined with PCA
HE Chen-yang, ZHOU Meng-ran*, YAN Peng-cheng
College of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China
Rapid identification and classification of mine water inrush is important for flood prevention work underground. This paper proposed a method of KNN combined with PCA identification of water inrush in mine with the laser induced fluorescence spectrum with an immersion probe laser into water samples. The fluorescence spectra of 4 kinds of water samples were obtained. For each set of data preprocessing, the processed data in each sample from 15 sets of data as the training setwith a total of 60 groups. The other 20 groups were used as the prediction set. The data were processed by principal component analysis (PCA), and then the KNN algorithm was used to classify and identify the principal component analysis. During the experiment, the pretreatment method in the principal component number is 2 while the correct rate has reached 100% by KNN classification algorithm.
KNN algorithm; PCA; Laser induced fluorescence; Mine water inrush; Water source identification
2015-08-30,
2015-12-20
國(guó)家“十二五”科技支撐計(jì)劃重點(diǎn)項(xiàng)目(2013BAK06B01), 國(guó)家自然科學(xué)基金項(xiàng)目(51174258)資助
何晨陽, 1991年生, 安徽理工大學(xué)電氣與信息工程學(xué)院碩士研究生 e-mail: 13155493061@163.com *通訊聯(lián)系人 e-mail: mrzhou8521@163.com
O657.3
A
10.3964/j.issn.1000-0593(2016)07-2234-04