董婷
(榆林學院 信息工程學院,陜西 榆林 719000)
近年來,有關礦井安全安全的監(jiān)控系統(tǒng)得到了非常廣泛的應用。面對如此大量并且復雜的監(jiān)控數據。如何從數據中發(fā)現(xiàn)隱含的信息才是煤礦安全監(jiān)測的主要目的和任務。簡單的說,面對各監(jiān)控設備實時的數據,我們如何來判斷煤礦的生產環(huán)節(jié)是否合理,生產環(huán)境是否安全,生產狀態(tài)是否存在潛在的危險。也就是說,煤礦安全監(jiān)測系統(tǒng)的部署,其最終目的是通過系統(tǒng)監(jiān)測到的信息,對安全和潛在的危險做出一種可靠的、穩(wěn)定的評估和預測[1]。如何從數據中挖掘有關安全的判別模式從技術上很容易實現(xiàn),重要的是這樣的安全決策是否具有實際的意義和價值,其次選用什么要的方法能訓練出具有推廣能力和魯棒性的決策模型就成為了一個適用性的研究問題[2]。
煤礦安全性監(jiān)測數據在時間序列上是變動的隨機變量,是一個離散的隨機過程[3],這一過程具有統(tǒng)計特性,它能從偶然性中揭示必然性的客觀規(guī)律,即依據煤礦安全決策的理論基礎和實質。
影響煤礦安全問題的因素很多,主要來源于自然環(huán)境的改變,瓦斯爆炸、地底透水、塌方地陷、人員操作失誤造成的安全事故。通過監(jiān)測系統(tǒng)的指數評價方法,根據監(jiān)控系統(tǒng)各個數據采集點返回的監(jiān)測數據可以對諸如溫度、CO、礦道頂板壓力等信息進行單指標系統(tǒng)的評估來對整個生產環(huán)境的安全做出判定[4]。但是自然環(huán)境的參數存在一定的相互影響,在煤礦安全生產環(huán)境中,某個監(jiān)控數據的變化在很大程度上是引發(fā)其它參數變化的誘因,或者是其它環(huán)境變量的改變導致此數據的變化。也就是說,從整體監(jiān)測數據出發(fā),研究其相互系數或者內在模式,可以對煤礦的安全生產決策提供有力的依據和信息支持。
從煤礦安全監(jiān)測系統(tǒng)抽取數據,監(jiān)測系統(tǒng)采集的數據存放在安全信息數據庫。對于來源于數據節(jié)點的數據要進行數據標準化的操作:實際系統(tǒng)中收集到的原始數據往往具有不完整性、噪聲、和不一致性的特點。數據標準化就是要去除數據源中的噪聲數據和無關數據,處理遺漏數據,考慮時間順序和數據變化;整理不確定屬性,忽略或刪除含有異常、孤立數據的記錄,清除與產生關聯(lián)規(guī)則無關的屬性,減少數據空間復雜度[5]。如:清理各數據表中訓練決策模型無關的數據,如數據采集點、采集設備屬性等,對于空缺數據可以人為添加或刪除此記錄。
表1中列出煤礦安全監(jiān)測系統(tǒng)采集的自然因素參數,數據來源于大劉塔煤礦的監(jiān)測數據,經過數據參數剔除后保留了7個特征對得到的原始數據進行標準化處理和簡單統(tǒng)計分析,得到表2。
關聯(lián)規(guī)則是數據挖掘的主要方法之一,通過對事務數據庫、關系數據庫和其他信息中的大量數據進行隱含信息挖掘,尋找數據中頻繁出現(xiàn)的模式。關聯(lián)規(guī)則挖掘問題源于對超市購物數據的分析,1993年由R.Agrawal等人提出[6]。通過對一個時間段內,零售店顧客購買商品的信息進行分析,發(fā)現(xiàn)一些固定的規(guī)律,在人們日常的購物清單中,有些商品經常被顧客一起購買,例如,“80%的顧客在購買面包和黃油的同時也會購買牛奶”,“70%的男性顧客在購買紙尿褲的同時也會買啤酒”等等通過分析顧客的購物清單,可以找出顧客購買商品之間的關聯(lián)關系,那么商家就可以根據這種關系來指導進貨、安排貨架和制定有針對性的營銷策略等,從而擴大銷售量[7]。關聯(lián)規(guī)則挖掘就是發(fā)現(xiàn)具有用戶指定最小置信度和最小支持度的關聯(lián)規(guī)則。置信度太低,說明規(guī)則的可信程度差;支持度太低,說明規(guī)則不具一般性。關聯(lián)規(guī)則的挖掘是數據挖掘諸多方法中應用最為廣泛的一種,首先由Agrawal等人提出,用來處理事務型數據庫,后來又推廣到關系型數據庫,現(xiàn)在已成為數據瓦局領域中一個非常重要的研究課題[8]。代表算法有Aprioi算法、基于劃分的算法、FP-樹頻集算。
表1 自然因素參數Tab.1 Natural factors
表2 統(tǒng)計分析表Tab.2 Statistical analysis table
數據庫中不可分割的最小信息單元,稱為項,一般用i表示。 項的集合稱為項集。 設集合I={i1,i2,…,ik}是項集,I中的項目的數量為k,則集合I稱為k-項集。
關聯(lián)規(guī)則挖掘的數據集記為T(T為事務集數據庫),T={t1,t2,t3,…tk,…tn},其中 tk={i1,i2,…ik}(k=1,2,3…n)為一條事務。令I={i1,i2,…in}是項目集,D是全體事務的集合。事務T是I上的一個子集,集合T?I,每個事務用唯一的標志TID來標識。關聯(lián)規(guī)則是形如X?Y的蘊含式,其中X?I,Y?I且X∩Y=?,X稱為規(guī)則的條件(前項),Y稱為規(guī)則的結果(后項)。
關聯(lián)規(guī)則的X?Y對事物集D的支持度定義為D中同時包含有事務X和Y的交易數與所有交易數之比,即:support(X?Y)=(包含 X 和 Y 的事務數/事務總數)*100%。支持度反映了項集X和項集Y中所包含的項在數據集中同時出現(xiàn)的頻率。
關聯(lián)規(guī)則X?Y對事務集合D的置信度定義為D中包含有X和Y的交易數與包含X的交易數之比。即:confidence(X?Y)=(包含 X和 Y的事務數/包含 X的事務數)*100%。置信度反映了數據集中出現(xiàn)項集X的同時又出現(xiàn)項集Y的條件概率。
關聯(lián)規(guī)則的支持度和置信度分別反映了所發(fā)現(xiàn)規(guī)則的有用性和確定性,一般的用戶可以定義兩個閾值,分別為最小支持度閾值和最小置信度閾值[9]。當挖掘出的關聯(lián)規(guī)則的支持度和置信度都滿足這兩個閾值時,我們就認為這個規(guī)則是有效的,否則,就是無效的。這兩個閾值一般由領域專家或用戶設定。
通常用戶為了達到一定的要求,需要指定規(guī)則必須滿足的支持度和置信度閾值,當 Suppport(X?Y),Confidence(X?Y)分別大于等于各自的閾值時,認為X?Y是有意義的,這兩個值稱為最小支持度閾值和最小置信度閾值[10]。其中,最小置信度閾值描述了關聯(lián)規(guī)則的最低重要性,并規(guī)定了關聯(lián)規(guī)則必須滿足的最低可靠性。
置信度和支持度均大于給定閾值稱為強規(guī)則:否則稱為弱規(guī)則。
數據挖掘的目的就是對強規(guī)則的挖掘。通過設置最小支持度和最小置信度可以了解某些數據之間的關聯(lián)程度。
如果項集 U={u1,u2,u3...,uk}出現(xiàn)的頻率大于或等于最小支持度計數,即滿足最小支持度閾值,則稱它為頻繁項集,頻繁項集的集合通常記為Lk。
性質(1)強規(guī)則X?Y對應的項集(X∪Y)必定是頻繁集。
性質(2)非頻繁項集的超集也一定是非頻繁項集。
因此,可以把關聯(lián)規(guī)則挖掘劃分為以下兩個子問題:
1)根據最小支持度找出事務集D中的所有頻繁項集。
2)根據頻繁項集和最小置信度產生關聯(lián)規(guī)則。
Apriori算法對本文監(jiān)測數據進行關聯(lián)規(guī)則挖掘,使用模式識別算法軟件包weka3.5作為工具,設定最小支持度為0.6得到各監(jiān)測數據的相關規(guī)則挖掘信息,結果顯示安全監(jiān)測數據之間存在較強的相互關系,這里給出挖掘得到的具有高關聯(lián)性的規(guī)則,表3中列出具體的相關規(guī)則。
利用數據挖掘技術對煤礦生產的歷史數據的挖掘得到安全生產的模式,從而對實時的現(xiàn)狀進行判別決策,對煤礦生產狀態(tài)進行分析和預測,可以得出預見性的結論,是正確決策和科學管理的重要前提和保障。
表3 關聯(lián)規(guī)則表Tab.3 Association rules table
[1]梁循.數據挖掘算法與應用[M].北京:北京大學出版社,2006:35-39.
[2]于忠清,王金龍.數據挖掘原理與算法[M].2版.北京:科技出版2009:45-49.
[3]陳京民.數據倉庫與數據挖掘技術[M].北京:電子工業(yè)出版社,2002:25-29.
[4]TANG Zhao-hui,Maclennan J.Data Mining with SQL Server 2005[M].Wiely Publishing,2005:15-19.
[5]福州大學空間數據挖.[EB/OL].http://kj.fjedu.gov.en/html/NewsView-222.html.
[6]毛國君.數據挖掘原理與算法[M].北京:清華大學出版社,2005:30-40.
[7]薩師煊,王珊.數據庫系統(tǒng)概論[M].北京:高等教育出版社,2006.
[8]劉芝怡.關聯(lián)規(guī)則挖掘算法的分析、優(yōu)化及應用[D].蘭州:蘭州大學,2007:13-20.
[9]Agrawal R,Srikant S·Fast Algorithms for Mining Association Rules[C]//VLDB’94.Santiago,Chile:[s.n.],1994:487-499.
[10]李代平.軟件工程[M].北京:清華大學出版社,2008.