劉高宇
摘要:以某煤礦十年來的煤質化驗數(shù)據作為分析對象,采用多層神經網絡方法進行建模,分析煤質指標和發(fā)熱量之間的關聯(lián)關系。并根據煤質數(shù)據的特點對數(shù)據集進行時間段劃分,利用LSTM神經網絡對煤炭的歷史發(fā)熱量做時間序列分析,預測短期內煤炭的發(fā)熱量。
關鍵詞:煤質分析;多層神經網絡;LSTM神經網絡
中圖分類號:TP391? ? 文獻標識碼:A
文章編號:1009-3044(2019)28-0210-03
煤炭在我國能源結構中占主導地位,是各個領域的重要能源基礎。由于煤炭不可再生的性質,一直以來各行業(yè)不斷探索新方法以達到資源的最大利用。目前,分級燃燒獲取最大發(fā)熱量是提升利用率的有效方法之一。分級的主要依據就是煤炭發(fā)熱量的高低,因此,煤礦在煤炭銷售前會對開采的煤炭進行煤質分析,運用物理或者化學的方式,對煤樣進行的化驗和測試,測定該批次煤炭包括發(fā)熱量在內的各項煤質指標,然后將滿足需求的煤炭發(fā)往客戶。各項指標的測定結果決定著該批次煤炭的使用方式,所以煤質的分析測定結果在煤炭交易中有著十分重要的地位。而現(xiàn)行的測定方法步驟繁多,耗時較長,過程不可逆,測定結果的準確性只能根據化驗技術人員的專業(yè)進行估計,沒有評判的標準。如果測定的結果存在一定誤差卻未及時發(fā)現(xiàn),在客戶使用過程中檢測出來就會造成十分嚴重的后果,這就需要一種輔助方法來對測定后的數(shù)據進行評判。另外,如果能夠對煤炭的發(fā)熱量做出相對精準的預測,將會對煤炭的生產起到積極的輔助作用,煤礦可以根據預測結果合理按需安排生產作業(yè);在化驗之前就對其發(fā)熱量有可靠的掌握,可以縮短生產流程時間,更加及時地將開采的煤炭交付到客戶。
近年來隨著深度學習的提出,神經網絡又開始煥發(fā)一輪新的生機,在諸多人工智能應用中被廣泛使用表現(xiàn)出了當前最佳的準確度。其中,多層神經網絡已被證明是一種通用的函數(shù)近似方法,可以被用來擬合復雜的函數(shù)。針對上述問題,煤質數(shù)據的眾多指標之間有著復雜的關聯(lián)關系,以大量數(shù)據為基礎利用多層神經網絡的方法對這些指標進行建模分析以得到指標值和發(fā)熱量之間的關聯(lián)關系,那么不符合關聯(lián)關系的數(shù)據即為疑似異常數(shù)據。
1數(shù)據集和使用方法介紹
1.1數(shù)據集
煤礦的每一批煤炭在售出之前都會進行嚴格的煤質檢驗過程,依據行業(yè)標準對各個指標做出檢定。數(shù)據集包含該煤礦近十年的煤質化驗數(shù)據,考慮到煤質的趨同性[1],地理位置越接近的煤炭其組成結構更加相似,所以我們選取了該煤礦最大的一個礦區(qū)的煤質數(shù)據作為研究對象。經過數(shù)據提取,發(fā)現(xiàn)該礦區(qū)產出的煤有兩種:1/3焦混煤和1/3焦特混煤。
我們將對這兩種煤炭分別進行數(shù)據分析和預測工作(本文結果以1/3焦特混煤為例),以化驗數(shù)據中煤質的16個成分指標作為模型的輸入,以收到基低位發(fā)熱量作為模型的輸出,建模探究其關聯(lián)關系。數(shù)據集中的化驗記錄以化驗時間為組織方式,同一天內存在多條化驗記錄對應不同批次的煤樣。但在煤質成分指標和發(fā)熱量的關聯(lián)關系探究中各數(shù)據記錄間相互獨立,與順序無關。因此,將數(shù)據集以一定的比例隨機劃分為訓練集和測試集進行模型訓練和測試。
1.2異常值檢測與處理
1.2.1煤質指標數(shù)據可視化
為了對煤質指標有更加深入的理解,我們對煤質的指標數(shù)據逐個進行了可視化繪制了散點圖,如圖1所示,通過散點圖中數(shù)據的分布情況可對其取值有大概的認知。
煤質的各項指標都有其特定的取值范圍,從圖中明顯可見,各個指標數(shù)據都聚集在一定范圍之內整體呈帶狀分布,這與常識一致。但是,我們也從圖中看出有少數(shù)數(shù)據點孤立整體帶狀范圍以外。以Mt和St,ad這兩個指標為例:指標Mt的大多數(shù)數(shù)據分布在6%~22%之間,少數(shù)存在于5%~6%以及22%~23%之間,與整體偏差很小,故而存在異常數(shù)據的概率就很低;指標St,ad的大多數(shù)數(shù)據分布在1%以下,明顯有兩個數(shù)據點在4%左右,與整體偏差很大,故而存在異常數(shù)據的概率就很高。
1.2.2孤立森林異常值檢測
異常數(shù)據存在兩個特征:少量,與正常數(shù)據差別較大。根據統(tǒng)計學原理,在數(shù)據空間里面,分布稀疏的區(qū)域表示數(shù)據發(fā)生在此區(qū)域的概率很低,因而可以認為落在這些區(qū)域里的數(shù)據是異常的[2]。結合可視化結果我們可以得出結論:數(shù)據集中有存在部分異常點。
為了解決異常值問題,我們使用孤立森林的方法進行異常值檢測。孤立森林異常值檢測方法適用于連續(xù)數(shù)據的異常檢測,其基本原理是在數(shù)據集上建立大量二叉樹以對數(shù)據進行分割,構建二叉樹型結構的時候,異常數(shù)據離根更近而正常數(shù)據離根更遠,更深。根據二叉樹分割結果將分布稀疏且離密度高的群體較遠的點視作異常,定義為容易被孤立的離群點[3]。得益于隨機森林的思想,孤立森林方法能快速處理大規(guī)模的數(shù)據,在實際使用中有著非常好的效果。我們使用了孤立森林的方法對煤質的各個指標數(shù)據進行了異常值檢測,如圖2所示,圖中展示了1/3焦特混煤指標Vd和FCad的異常值檢測結果,綠色為正常數(shù)據,紅色為異常數(shù)據。
1.3相關性分析與特征選擇
數(shù)據集中煤質的指標有16種之多,其中部分指標之間存在緊密的數(shù)學關聯(lián)系。若將所有的指標都加入訓練過程,會嚴重加大計算量降低性能。所以,要對煤質的指標進行相關性分析并做出特征選擇。如下圖3所示,煤質的16個化驗指標相關性分析的結果,明顯可以看出部分指標之間存在強相關(存在相關系數(shù)為0.99,甚至為1的情況),這些強相關的指標對模型的擬合貢獻相近,為了減少計算量我們對特征進行選擇,盡量只保留相關性弱的指標。
我們利用特征選擇工具feature-selector對煤質指標進行相關性選擇,將具有強相關性的特征篩選出來。如圖4所示,圖中這些指標都存在一個甚至多個指標與其自身的相關性大于0.9(認為其具有強相關),因為強相關的特征可以互相替代故而根據feature-selector的選擇結果,我們在建模過程中會嘗試刪除指標['Ad(%)', 'Aar(%)', 'Vd(%)', 'Var(%)', 'FCad(%)', 'FCd(%)', 'FCar(%)', 'St,d(%)', 'Hd(%)']進行模型訓練。
2建模
2.1模型結構
2.1.1 多層神經網絡
多層神經網絡,又稱多層感知機(MLP),是典型的深度學習模型。對于數(shù)據集中的數(shù)據用向量[X=(x1, x2, ... ..., x16)]表示煤質化驗數(shù)據的16個指標(經過特征選擇后訓練過程中注入模型的特征不足16個),其中向量[xn=(x1n, x2n, ... ..., xmn)Τ, 1≤n≤16;m,n ∈Ν+]表示每個指標的記錄值。由此得出模型的輸入是一個m×n的二維向量。我們建立了一個三層的全連接神經網絡結構,每層有200個神經元。利用該神經網絡對數(shù)據中劃分出的訓練集進行訓練,并使用sigmoid和relu激活函數(shù)對神經層輸出結果進行處理。
2.1.2 LSTM神經網絡
LSTM(長短期記憶)網絡,是一種時間遞歸神經網絡,適合于處理和預測時間序列中間隔和延遲相對較長的重要事件[4],我們使用LSTM神經網絡對發(fā)熱量進行預測。假設W,Q[∈]D,其D為樣本數(shù)據集,Wi,Qi表示第i條樣本中的重量值和發(fā)熱量值,我們把每一批煤炭的重量和發(fā)熱量做加權平均,計算形式如下:
[E(Qi)=i=1mWi*Qii=1mWi]
然后以天為單位進行匯總統(tǒng)計得出每日的加權平均發(fā)熱量,這樣就得到了一個煤炭發(fā)熱量的時間序列S={q1, q2, … …, qd},其中d為天數(shù)。由于LSTM是一個監(jiān)督模型所以要將序列S轉換為帶有標記的二維序列。時間序列在進行預測時往往使用相隔固定時間步長的兩個數(shù)據作為預測的輸入和輸出,我們的目標是以天為單位進行預測故而將序列S的值向后平移一位作為輸出。經過變換和處理之后得到數(shù)據集Dset={( q1, q2),( q2, q3), … …,( qd-1, qd)}。
上述內容為單變量LSTM的數(shù)據準備過程,同時LSTM也支持多變量的訓練。在進行多變量LSTM網絡構建時,我們加入了經過特征選擇后的特征一起作為輸入變量,這些特征值的處理方式和發(fā)熱量一樣進行加權平均,輸出變量保持不變認為發(fā)熱量平移一個單位后的序列。
2.2結果
我們使用了TensorFlow和Keras這兩個深度學習框架對2.1節(jié)闡述的網絡結構進行了實現(xiàn),通過建模和不斷優(yōu)化得到了最終的模型。利用這些模型以及測試集,對模型進行了評估。
2.2.1 評價標準
在預測任務中,假設樣例集為D={(x1,y1),(x2,y2),... ... ,(xm,ym)},其中yi為樣本xi的真實標記,為了評估模型得出的關聯(lián)關系f的性能,要把模型得出的結果f(xi)與真實值y進行比較。
(1)均方根誤差(RMSE)
我們常用均方根誤差(RMSE)來衡量觀測值同真實值之間的偏差,其計算公式為:
[Ef;D=1mi=1mf(xi)-yi2]
(2)準確度
我們定義預測值f(xi)與真實值y的差除以真實值y為樣本xi處的預測誤差比,則整個樣本集D上的誤差為各點處的均值,其形式為:
[ε=1mi=1mf(xi)-yy]
則準確度為,acc = 1-ε。
2.2.2 煤質分析
我們在得到的多層神經網絡模型上運行了相應的測試集得到了測試結果,將測試得到的發(fā)熱量結果和測試集中真實的發(fā)熱量進行比對,如圖5上圖所示,圖中藍色實線為真實的發(fā)熱量記錄數(shù)值曲線,黃色虛線是經過模型得出的結果值曲線,其均方根誤差為35.39,準確度為99.4%,從圖中可以看出模型取得了優(yōu)良的擬合效果。為了進一步直觀地觀測擬合效果,我們將真實值和擬合值標準化后的值當作縱坐標和橫坐標繪制在坐標系中,如圖5下圖所示,圖中的紅色直線為y=x,綠色的點為(真實值,擬合值),從圖中可以看出,這些點呈帶狀均勻地分布在直線y=x附近,這也說明了我們得到的擬合值與真實值相差不大,即模型具有優(yōu)秀的擬合效果。
2.2.3 發(fā)熱量預測
與發(fā)熱量的分析不同,發(fā)熱量的預測是一個時間序列問題,在數(shù)據準備階段需要將數(shù)據嚴格按照時間先后順序進行排序。我們的目標是對煤炭的發(fā)熱量做出短期預測,并且考慮到數(shù)據的實用價值,時間間隔太長的數(shù)據對于當前的預測參考價值不大,預測太長時間段的數(shù)據使用價值也很小。因此,將所有的煤質數(shù)據作為樣本集來訓練和測試模型是沒有意義的。如圖6上圖所示,圖中展示了以兩年數(shù)據作為樣本集進行訓練和測試的測試結果,其中藍色線是真實值曲線,黃色線是預測值曲線,其均方根誤差為75.69,準確度為98.48%,容易看出預測曲線和真實曲線具有優(yōu)良的擬合效果,在圖6下圖中也很明顯可以得出這個結論。
為了確定樣本集規(guī)模對結果的影響,我們以年為單位做了9組實驗,其結果如表1所示,每次增加一年的煤質數(shù)據來擴充樣本容量,從實驗結果可以看出LSTM神經網絡在煤炭的發(fā)熱量預測中變現(xiàn)優(yōu)異。但是,時間序列樣本容量的變化對LSTM的預測結果有著一定的影響。
3總結
LSTM神經網絡是目前進行時間序列分析性能最優(yōu)表現(xiàn)最好的方法之一。然而,煤質數(shù)據與常見的時間序列有所不同,它的數(shù)據受自然條件制約,時間間隔較短的煤質數(shù)趨近相似,在煤礦出現(xiàn)斷層煤質發(fā)生改變后煤質的各項數(shù)據可能會出現(xiàn)大幅的跳躍性變化。因此,像大多數(shù)時間序列那樣將整體數(shù)據劃分訓練、集測試集后利用LSTM進行建模,我們得出的預測結果與真實值相差很大,尤其隨時間推移誤差逐漸變大。在將數(shù)據集按時間段劃分后,如上文所述,最終取得了更加準確的預測結果。綜上所述,LSTM對較短時間段的數(shù)據有優(yōu)秀的預測性能,故而在實際應用中需要根據時間的推移不斷更新模型。經過一系列的實驗和驗證,我們得出深度神經網絡絡可以很好地應用在煤質數(shù)據的分析和預測工作中,多層神經網絡和LSTM神經網絡在煤質的分析和預測任務中表現(xiàn)出了優(yōu)異的性能。但是,要想發(fā)揮出其最優(yōu)的性能是一件艱巨的工作,我們還需要從各個方面進行思考和探索。
參考文獻:
[1] 韓慧穎. 煤質檢驗數(shù)據分析及熱值預測研究分析[J].科學中國人,2017(6).
[2] 胡姣姣,王曉峰,張萌,等. 基于深度學習的時間序列數(shù)據異常檢測方法[J].信息與控制,2019(3).
[3] Fei Tony Liu,Kai Ming Ting,Zhi-Hua Zhou. Isolation-Based Anomaly Detection[J]. ACM Transactions on Knowledge Discovery from Data (TKDD). 2012(1).
[4] Xiang Li,Ling Peng,Xiaojing Yao,et al. Long short-term memory neural network for air pollutant concentration predictions: Method development and evaluation[J]. Environmental Pollution,2017.
【通聯(lián)編輯:梁書】