劉康煒,萬劍華,靳熙芳
1(中國石油大學(華東)地球科學學院,青島 266580)
2(中國石化青島安全工程研究院,青島 266071)
石油、化工等危險化學品企業(yè)屬于高危企業(yè),具有“高溫高壓、易燃易爆、有毒有害、連續(xù)作業(yè)、鏈長面廣”等特點.目前危險化學品安全形勢嚴峻,各類爆炸、火災等事故時有發(fā)生[1].據(jù)統(tǒng)計,我國化工企業(yè)9.6 萬余家,其中危險化學品生產(chǎn)企業(yè)2.4 萬余家,生產(chǎn)化學品種類1 0 萬余種,近十年化學品事故超過5000 起[2,3].?;肥鹿噬婕暗狞c多面廣,一旦事故發(fā)生,嚴重威脅人民的生命安全,并造成巨大的社會經(jīng)濟損失[4].因此,針對?;肥鹿蔬M行分析研究,并在此基礎上制定相應的安全對策,顯得尤為重要.
傳統(tǒng)的事故致因模型[5]是建立在“事故是由部件失效引起的”這一假設基礎上的,因此,事故預防的重點集中在使系統(tǒng)部件具備高可靠性,或者預知和獲取部件的失效時間來預防事故的發(fā)生[6].基于事件鏈的事故致因模型直接有效,是以“因果關系”為導向的,以分析事故原因作為預測事故的主要依據(jù).但是它們過于簡單沒有包含導致事故發(fā)生以及如何預防事故所必需的因素.其主要局限性包括要求直接因果關系,選擇事件的主觀性,識別事件鏈條件的主觀性等.事故原因分析是一個復雜的系統(tǒng)工程,涉及各個領域和各個行業(yè)的專業(yè)知識[7].受分析者專業(yè)領域知識的限制,傳統(tǒng)的事件鏈模型無法完全識別控制目標和復雜系統(tǒng)要素間的因果關系,達不到預期的控制和優(yōu)化目標.
其次,事故預測是基于可知的信息和數(shù)據(jù),對預測對象的安全狀況進行預報和預測[8].傳統(tǒng)的事故預測方法的研究重點往往集中在事故預測模型的建立和算法改進上,而忽略了事故先驗數(shù)據(jù)收集和梳理.受限于先驗數(shù)據(jù)收集難度和預測模型復雜度的影響,事故預測模型通常是建立在歷年事故發(fā)生起數(shù)、死亡人數(shù)、?;贩N類和數(shù)量等有限的幾個人為認為和危化品事故發(fā)生有強因果關系的因素之上的,這就造成了事故預測結果的不全面和不準確.以中國石化11.22 東黃輸油管道泄漏爆炸事故為例,如果以傳統(tǒng)的事件鏈事故致因模型進行分析,從因果關系的角度,是不太可能考慮到市政管網(wǎng)跟爆炸事故之間的強相關關系的[9].
綜上所述,傳統(tǒng)的基于因果關系的事故鏈分析方法受限于傳統(tǒng)安全工程所依賴的技術基礎和假定,無法適應于今天所建造的復雜系統(tǒng).本文以事故致因理論為基礎,分析?;肥鹿市纬傻闹饕绊懸蛩?構建了?;肥鹿薁顟B(tài)向量,全面描述導致危化品事故發(fā)生的因素,并基于構建的狀態(tài)向量進行?;肥鹿史治鲱A測應用.
結合事故致因理論,?;肥鹿实陌l(fā)生主要由人的不安全因素、物的不安全狀態(tài)和環(huán)境的不安全影響造成的,因此可將事故復雜性致因模型可歸納為三大類指標:主觀評審指標(人為因素)、客觀固有指標(物態(tài)因素)、環(huán)境指標(環(huán)境因素),如圖1所示.
圖1 事故復雜性致因模型
為了更好的研究事故發(fā)生的原因,開展事故的預測預防,根據(jù)事故復雜性致因模型,將事故發(fā)生前后的狀態(tài)定義為一個多維向量,組成向量的各元素由事故復雜性致因模型的各因素組成,具體如下:
(1)主觀評審指標
主觀評審指標由企業(yè)定期進行評審打分,假設主觀指標數(shù)量為m個,則主觀評審指標可表示為一個m維向量P.
主觀評審指標主要是涉及一些無法量化或者無法自動提取的安全指標的獲取,如“對特種設備操作和維護的培訓是否到位”,“安全監(jiān)管行為是否得當”等,這些指標需要靠企業(yè)人員定期評估打分獲得.
(2)客觀固有指標
客觀固有指標指企業(yè)固有危險等級,假設客觀指標數(shù)量為n個,則客觀固有指標也可表示為一個n維向量D.
客觀固有指標可自動獲取,如企業(yè)“化學品產(chǎn)量”,“重大危險源數(shù)量”,“危險物質的火災、爆炸性指數(shù)”,“化學品物質毒性指數(shù)”等.
(3)環(huán)境指標
環(huán)境指標主要包括企業(yè)當?shù)氐臍夂驓庀?、地理地質環(huán)境、自然災害發(fā)生頻率、政府監(jiān)管水平、社會事件等相關指標,一切不能歸為前兩類的指標都歸為環(huán)境指標.這些指標也應該最終對應成t維向量E.
綜上,事故狀態(tài)向量可定義如下:
事故狀態(tài)向量A={P,D,E}.
事故狀態(tài)向量將事故進行向量化表示,在此基礎上進行事故預測研究,充分考慮了造成事故發(fā)生的眾多因素,盡可能的保留了事故發(fā)生前后的真實狀態(tài).然而,構建?;肥鹿薁顟B(tài)向量需明確三個屬性:向量的維度、每個維度的形式、各維度之間的關系.
知識圖譜是由節(jié)點和關系組成的圖譜[10],可直觀的對?;肥鹿实膱鼍斑M行建模,運用“圖”這種基礎性、通用性的“語言”,“高保真”地表達事故因素之間的各種關系.?;分R圖譜采用自頂向下和自底向上兩種方式,來提高實體抽取的準確度.首先從數(shù)據(jù)源中獲得本體、術語、頂層的概念以及相關規(guī)則,然后不斷地進行實體學習,將新實體納入前面的概念體系中.同時,從歸納實體開始,進一步進行抽象,逐步形成分層的概念體系,如圖2所示.
圖2 ?;分R圖譜構建方法
智能信息搜索是從知識理解和邏輯推理的角度,分析信息對象與檢索請求的搜索方法[11].智能信息搜索在在于搜索過程和結果的智能化方面,與傳統(tǒng)搜索引擎的最大差別.通過知識圖譜等技術,能夠有效表達信息對象之間的聯(lián)系,充分理解用戶的信息檢索需求和信息對象包含的內(nèi)容,從而使得搜索引擎具備理解語義和有效推理的能力[12].
基于知識圖譜的搜索服務是以?;分R圖譜作為底層的數(shù)據(jù)支持,從用戶的查詢語句中抽取出實體和關系.本文利用預定義模板的方法來處理基于知識圖譜的搜索服務.預定義模板基于實體、實體關系、實體屬性將模板大致劃分為三類:實體模板、實體關系模板、實體屬性模板.在搜索語句處理模塊中,對查詢語句進行實體、關系以及語法依存識別,根據(jù)實體和模板能否構成知識圖譜的一個子圖,選擇匹配度最高的模板,并將模板轉換為對應的Cypher 語句.最終,將用模板匹配得到的結構化查詢語句提交至圖數(shù)據(jù)庫執(zhí)行,挖掘與?;肥鹿氏嚓P的所有關聯(lián)因素,如圖3所示.
圖3 基于知識圖譜的?;肥鹿赎P聯(lián)因素搜索框架
用向量來表示事故,充分考慮了事故發(fā)生時的人為因素、物態(tài)因素、環(huán)境因素.在事故狀態(tài)向量基礎上進行事故預測研究,相比于傳統(tǒng)的僅針對少數(shù)強關聯(lián)因素(如死亡人數(shù)、事故發(fā)生起數(shù)等)建立的事故模型具有積極意義.但事故狀態(tài)向量帶來的問題是事故的高維度,以往針對少數(shù)強關聯(lián)因素建立事故模型的方法已不適用,由于支持向量機算法在高維度向量學習中表現(xiàn)出來的優(yōu)勢,本文選其建立事故預測模型.
支持向量機(Support Vector Machines)是Vapnik等人提出的機器學習算法[13],由于其出色的學習性能,在人臉識別、手寫識別、文本自動分類等很多領域都得到了成功應用[14].
SVM 具有直觀的幾何意義,給定樣本集{(xi,yi)|i=1,… ,l;xi∈Rnyi∈{+1,-1}},對于線性可分情況:支持向量機目標就是尋找一個超平面<w,x>+b=0將其正確分開,這樣的超平面往往不止一個,其中與兩類樣本點間隔Margin 最大的分類超平面會獲得最佳的推廣能力:即最優(yōu)分類超平面,如圖4所示.最優(yōu)超平面僅由離它最近的樣本點所決定,而與其它樣本無關,這些樣本點即所謂的支持向量,這也正是支持向量機名稱的由來[15,16].
圖4 線性向量機
而對于非線性問題,支持向量機采用特征映射方法,通過引入核函數(shù)K,使得:
實現(xiàn)非線性變化后的線性分類,如圖5所示.
圖5 非線性支持向量機
如果訓練樣本可以無誤差地被劃分,每一類數(shù)據(jù)與超平面距離最近的向量與超平面之間的距離最大,此超平面稱為最優(yōu)超平面.求解最優(yōu)超平面<w,x>+b=0,即對于給定的訓練樣本,找到權值ω和偏移b的最優(yōu)值,使下式最小化:
同時滿足約束條件:
可以看出這是一個二次規(guī)劃問題[12],采用拉格朗日乘子法求解,引入拉格朗日乘子αi≥0,i=1,… ,l,求解下列函數(shù):
其中,Q(i,j)=yiyjK xr,xs為任意支持向量,相應的分類器為: 在利用SVM 分類器進行分類時,并非所有的樣本都對分類起作用,只有少量被稱作支持向量的訓練樣本才起作用,并且這些支持向量在幾何位置上分布于超平面的周圍[17].為了減少增量學習的樣本數(shù)量,應該盡可能選取那些可能成為支持向量的樣本進行學習.本文針對?;沸袠I(yè)數(shù)據(jù)特點,提出了基于狀態(tài)向量距離的SVM 增量學習算法. 支持向量機增量學習問題可以描述如下:存在歷史樣本集A,增量樣本集B,并假定A與B滿足A∩B=φ,?A和ASV分別是A 上的初始SVM 分類器和對應的支持向量集,顯然ASV?A,學習的目標是尋求在A∪B上的分類器?AB和對應的支持向量集(A∪B)SV. 根據(jù)支持向量的幾何分布特點,判定一個樣本是否能轉化為支持向量應綜合考慮以下兩個因素:一是這個樣本到超平面的距離;二是這個樣本到該類樣本中心的距離.因此在進行增量學習時使用以下的篩選機制,盡可能將可能成為支持向量的樣本選到新訓練集中.用ASV表示原樣本集中的支持向量,在A-ASV中和BSV中都存在可能成為支持向量的樣本.從中選取靠近分類超平面且在類中心靠超平面?zhèn)鹊臉颖咀鳛樾略鰳颖军c.如圖6所示,選取超平面距離小于中心平面距離的樣本點組成邊界樣本集M.將ASV∪BSV∪M作為 最終的增量學習訓練集. 圖6 邊界樣本集篩選機制示意圖 經(jīng)典SVM 算法,即非增量學習算法,保留了所有訓練樣本點,保證了預測分類的準確度,但因為不支持增量學習,全部重新訓練,由此造成的訓練時間和訓練迭代的樣本個數(shù)較多,降低了算法的效率.傳統(tǒng)增量學習算法[18]進行增量學習時,認為增量樣本中滿足KKT條件的樣本集對訓練不起作用,將其過濾,僅將原始樣本和新增樣本中違反KKT 條件的樣本合并進行增量學習.此方法有效的過濾了增量樣本,減少了訓練樣本的個數(shù),提高了訓練時間,但是由于篩選條件過于單一,可能將對最優(yōu)超平面起到支撐作用的支持向量進行過濾,造成有效樣本丟失,由此降低預測分類的準確度. 三種算法從訓練時間,準確率兩個方面進行比較如下: (1)訓練時間:本文算法與經(jīng)典SVM 算法相比,在訓練時間上有大幅度的減少,這是因為在增量學習過程中本文算法對新增樣本和原有樣本進行了有效的篩選,在保留樣本有效信息的前提下,減少了訓練樣本的數(shù)量,使增量學習的規(guī)模得到了良好的控制,縮短了訓練的時間.但與傳統(tǒng)增量學習算法相比,在訓練時間上略有劣勢.這是因為傳統(tǒng)增量學習算法舍棄了原始樣本中的非支持向量和新增樣本的滿足KKT 條件的樣本.這種訓練樣本數(shù)量的減少是以犧牲樣本有效信息為代價的,最終將會影響到預測分類的準確率,如圖7所示. 圖7 算法訓練時間比較 (2)準確率:本文算法的準確率僅次于經(jīng)典SVM 算法,與傳統(tǒng)的增量學習算法相比有大幅的提高.非增量學習算法保留了原始樣本和新增樣本的全部信息,因此預測準確率較高.本文算法預測準確率僅次于非增量學習算法,說明本文算法的篩選機制有效的保留了樣本有效信息.而傳統(tǒng)增量學習算法因為舍棄了過多的樣本點,雖然增量學習的樣本規(guī)模得到了有效的控制,訓練的時間得到了提高,但是因為丟失了大量樣本信息,最終的預測準確率降低了,如圖8所示. 圖8 算法預測準確率比較 綜合考慮以上兩個方面的理論分析,本文算法在訓練時間和預測準確率等方面有較好的表現(xiàn).既彌補了經(jīng)典SVM 算法訓練規(guī)模較大,訓練時間較長的缺陷,又在一定程度上解決了傳統(tǒng)增量學習算法丟失樣本有效信息,預測準確率偏低的問題. 針對目前掌握的619 個典型危化品事故樣例,開展知識圖譜分析,構建事故狀態(tài)向量.通過實體學習,針對從不同領域抽取到的知識,建立有效的實體鏈接和知識合并方法,消除信息中錯誤和冗余.同時,采用實體對齊方法實現(xiàn)不同知識圖譜系統(tǒng)之間的鏈接與合并,從而實現(xiàn)構建一個更大規(guī)模的?;分R圖譜系統(tǒng),構建的?;分R圖譜如圖9所示. 以火災爆炸事故為例,通過智能信息搜索提取相關因素,按照人物環(huán)進行分類,構建?;肥鹿薁顟B(tài)向量,共計265 維.其中,人為向量P(維度185),分為領導力與安全文化、工藝安全人為信息、過程安全人為控制、檢查與績效等幾大類;物態(tài)向量D(維度49),分為危險物質的火災、爆炸性指數(shù)、毒性指數(shù)、工藝指數(shù)、設備指數(shù)、安全設施指數(shù)等幾大類;環(huán)境向量E(維度31),由氣象指數(shù)和地理信息指數(shù)等組成,如圖10所示. 圖9 危化品知識圖譜 圖10 ?;肥鹿薁顟B(tài)向量的知識圖譜表 支持向量機可通過對事故向量的學習建立預測超平面,并通過超平面對未知事故狀態(tài)的向量做出預判,從而形成事故預測模型,具體算法如下: (1)收集事故狀態(tài)信息.?;肥鹿蕯?shù)據(jù)來自于化學品安全網(wǎng)(www.nrcc.org.cn),共619 個事故狀態(tài)和1288 個非事故狀態(tài). (2)標記事故狀態(tài).其中事故狀態(tài)為1,非事故狀態(tài)為-1; (3)將事故狀態(tài)和非事故狀態(tài)轉化為向量形式,事故狀態(tài)向量的格式如下: 其中,label 為事故狀態(tài)結果,1 為事故狀態(tài),-1 為非事故狀態(tài).index 為特征維度,value 為特征值,其中n=265. (4)選取m=500 個向量作為初始訓練集Vt,在剩余向量中隨機選取900 個組成3 個集合V1,V2,V3,作為測試集,每個測試集樣本數(shù)量300. (5)在訓練集Vt上進行支持向量機訓練學習,構建預測超平面f(x). (6)利用預測超平面f(x)對測試集V1,V2,V3 進行預測,得出每個向量的預測結果 (7)與測試集V1,V2,V3 標記的原有事故狀態(tài)進行對比,鑒定預測結果. (8)修改Vt樣本數(shù)量m的值,重復步驟(5)~(8),驗證算法. 以上所有算法均在Matlab7.0 和LibSvm-mat-3.20 工具包[19]的基礎上實現(xiàn).實驗平臺IBM3850 服務器,CPU 為4 核E7-4830V2 處理器,內(nèi)存16×16 GB DDR3,操作系統(tǒng)為Windows server 2012.實驗中使用核函數(shù)為REF 函數(shù),C=1,實驗結果如表1-3 所示. 表1 SVM 學習算法實驗結果(m=500) 表2 SVM 學習算法實驗結果(m=750) 表3 SVM 學習算法實驗結果(m=1000) 實驗結果表明,基于狀態(tài)向量的SVM 事故預測方法在保留了事故眾多相關因素的同時,可以有效的判斷事故向量的狀態(tài),預測結果準確率較高.隨著訓練樣本數(shù)量的不斷增加,預測準確率逐漸提升,如圖11所示. 圖11 預測準確率對比圖 本文從事故致因的理論角度,分析了影響危化品事故發(fā)生的人為、物態(tài)和環(huán)境的復雜性因素,分析了危化品事故的形成機理,指出傳統(tǒng)的基于事件鏈事故分析不再適應于今天所建造的復雜系統(tǒng),并在此基礎上給出了事故狀態(tài)向量的定義,提出了一種基于狀態(tài)向量的?;肥鹿史治鲱A測方法.高維事故狀態(tài)向量盡最大可能考慮了造成事故發(fā)生的眾多因素,利用支持向量機學習算法,建立事故預測超平面,以此對未知狀態(tài)的向量進行預測.通過樣本實驗表明,本文提出的危化品事故預測方法,預測準確率較高,對?;沸袠I(yè)事故的預測預防具有積極意義.隨著危化品事故增量學習的不斷進行,?;肥鹿氏蛄烤S度也會隨之不斷增加,由此對本文基于狀態(tài)向量的增量SVM 學習算法在效率和訓練時間方面提出更多要求,在未來研究工作中,將對向量維度篩選及算法效率提升等方面進一步深入研究.3 基于狀態(tài)向量的?;肥鹿暑A測應用分析
3.1 ?;肥鹿薁顟B(tài)向量構建
3.2 危化品事故預測方法驗證
4 結論