劉 煒,丁 寧,楊竣輝,王 旭,張雨嘉,劉宗田
上海大學計算機工程與科學學院,上海200444
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(04)-0466-15
?
針對環(huán)境污染突發(fā)事件領域的事件本體模式*
劉煒+,丁寧,楊竣輝,王旭,張雨嘉,劉宗田
上海大學計算機工程與科學學院,上海200444
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(04)-0466-15
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant Nos. 61305053, 61273328 (國家自然科學基金).
Received 2015-06,Accepted 2015-09.
CNKI網(wǎng)絡優(yōu)先出版: 2015-09-28, http://www.cnki.net/kcms/detail/11.5602.TP.20150928.1711.008.html
摘要:事件本體設計模式(event ontology design pattern,EODP)是加快事件本體構建,避免設計歧義以及在建模過程中重復出現(xiàn)相同錯誤的一種解決方案。提出了一種通用的事件模型結構,該模型結構可以在沒有特定領域詞匯的情況下表示W(wǎng)eb文本中最一般性的事件信息。在此基礎上,提出了事件本體模式概念和事件本體模式的提取方法,并利用該方法建立了基于共享詞匯的環(huán)境污染突發(fā)事件本體模式。最后,利用描述邏輯book=467,ebook=21對環(huán)境污染突發(fā)事件本體模式進行形式化,驗證了使用事件本體模式實現(xiàn)領域事件本體建模的有效性和概念一致性。
關鍵詞:環(huán)境污染突發(fā)事件;事件本體模式;描述邏輯
環(huán)境突發(fā)事件是目前國內經(jīng)常出現(xiàn)的一類突發(fā)事件,它包括各種污染事件(如霧霾、飲用水污染、核材料泄漏、工廠偷排污染物等)以及污染事件引發(fā)的一系列社會事件(如化工項目引發(fā)的群體事件,搶購飲用水和口罩等),對社會穩(wěn)定影響很大。這些事件通過新聞報道或者通過網(wǎng)絡用戶在論壇、微博、微信等互聯(lián)網(wǎng)應用中發(fā)布,通常會引發(fā)網(wǎng)絡用戶激烈的討論,而這些事件在互聯(lián)網(wǎng)中的討論和演化反過來也會影響到現(xiàn)實世界。環(huán)境突發(fā)事件應急預警系統(tǒng)用于從互聯(lián)網(wǎng)上搜集和處理與污染事件相關聯(lián)的各種事件信息,并幫助環(huán)境管理者和突發(fā)事件響應部門監(jiān)測、分析突發(fā)事件并及時采取有效措施是十分必要的。傳統(tǒng)的環(huán)境突發(fā)事件預警系統(tǒng)普遍采用框架方法[1]或網(wǎng)絡模型[2)Time Ontology in OWL. http://www.w3.org/TR/owl-time.]描述突發(fā)事件信息。采用框架方法描述突發(fā)事件具有較好的完整性,但是無法表示突發(fā)事件的動態(tài)過程,而且無法對知識進行形式化,不能支持嚴密的推理。采用網(wǎng)絡模型描述突發(fā)事件,雖然可以描述事件發(fā)生過程的狀態(tài)遷移,但是對突發(fā)事件的內部結構無法進行描述,而且對于事件之間的語義關系(尤其是非分類關系)也缺乏相應的表示方法。利用本體表示突發(fā)事件信息并實現(xiàn)推理預警是近幾年出現(xiàn)的一種新方法[3-4],本體方法能夠對環(huán)境突發(fā)事件進行概念分類,基于描述邏輯的本體形式化基礎有助于實現(xiàn)突發(fā)事件在語義級別上統(tǒng)一表達,從而達到知識的共享和互操作。因此,在環(huán)境突發(fā)事件領域建立相關本體變得越來越重要,是污染突發(fā)事件報警系統(tǒng)不可缺少的組成部分。然而,以概念為中心的傳統(tǒng)本體在構建突發(fā)事件領域本體知識時存在諸多缺陷:
(1)概念離散的問題。突發(fā)事件概念和突發(fā)事件的參與者、地點和時間不是作為一個有機整體存在,因此在構建本體過程中存在大量的概念分類工作。
(2)傳統(tǒng)本體往往容易忽視突發(fā)事件的動態(tài)性,比如很難描述突發(fā)事件隨時間變化所呈現(xiàn)出的不同狀態(tài)。
(3)傳統(tǒng)本體中概念的關系單一,不能對事件之間的語義關系進行充分描述,造成推理能力不足。
以事件為中心的本體建模能夠捕獲特定領域的動態(tài)特征。事件能夠很好地體現(xiàn)人物、地點、動作和對象之間的復雜關系。事件關系為事件及相關概念的語義描述和推理提供了更精確的表示。本文首先提出了一種針對Web文本分析與處理的事件模型結構來表示文本通用的事件信息。該結構充分考慮文本事件描述中所包含的動作、地點、參與者、時間、事件過程中的狀態(tài)以及文本語言的表現(xiàn)形式,試圖對不同領域的事件及事件類進行描述,因此沒有針對具體領域的事件術語做假設。此外,該事件結構具有最小的語義承諾,從而保證了所建立的事件或事件類之間具有最大的互操作性。在此基礎上,考慮利用現(xiàn)有的本體語言或術語詞典(包括標準的OWL 2和人物、地點本體)來實現(xiàn)不同事件要素的描述,力求達到對事件要素類進行復用。例如,重用FOAF (friend of a friend)1))FOAF Vocabulary Specification. http://xmlns.com/foaf/spec/.中的Agent類來描述事件的施動者,使用時間本體(time ontology)2))Time Ontology in OWL. http://www.w3.org/TR/owl-time.來描述事件中的時間要素。
針對環(huán)境突發(fā)事件的本體構建過程通常是十分復雜的,特別是當本體的規(guī)模和復雜度不斷增加時,構建本體的難度也會大幅上升。本體構建者往往都是特定領域的專家,而非邏輯專家,他們更關注特定領域的概念,而不是本體的表示方法。此外,在構建環(huán)境突發(fā)事件本體時,本體構建者常常會建立和遵循一套通用的建模方案來控制本體建模的復雜度。而在構建具體的事件本體時(如空氣污染本體和水污染本體),不同事件本體之間存在著大量相似的事件類、事件要素和事件關系。這些相似的部分可以通過本體模式進行抽象。事件本體設計模式的作用是從形式上捕獲重現(xiàn)的事件本體模型,并實現(xiàn)已存在的事件本體詞匯的重用,來簡化事件本體構建過程,并避免一些常見的錯誤。本文提出了一種基于共享詞匯的環(huán)境污染事件本體模式,并設計了從多個領域事件本體中抽取事件本體模式的算法。最后,利用描述邏輯對本體模式進行形式化,通過實例驗證了事件本體模式實現(xiàn)領域事件本體建模的有效性和概念一致性。
近年來,研究人員針對基于事件的知識表示提出了多種模型結構[5-8],這些模型結構由于不同的側重點、不同的關注領域以及形式化層次而各不相同,但是大多數(shù)的事件模型結構都類似于5W模型(who, what, when, where, how)。人們在研究事件結構的過程中發(fā)現(xiàn)在對事件進行表示時,非常重要的一點是對事件發(fā)生過程中內部狀態(tài)的變化進行描述。同時在構建事件知識庫時,多數(shù)是通過人工方式構建,因此往往忽視了事件知識在文本中的語言表現(xiàn),而事件的語言表現(xiàn)對計算機進行文本事件的自動偵測和識別起到重要的作用。
2.1事件規(guī)范說明
定義1(事件)本文將事件定義為在某個特定的時間和地點發(fā)生的,由若干角色參與,表現(xiàn)出若干動作特征,并伴隨著對象內部狀態(tài)變化的一件事情。其形式化表示為:
從知識表示的角度,將事件定義為包含動作(A)、對象(O)、時間(T)、地點(P)、內部狀態(tài)(S)和語言表現(xiàn)(L)等6個要素的知識單元。其中A表示事件所包含的動作或動作序列的集合,在文本中,動作通常作為識別一個事件的觸發(fā)詞。O表示一個事件中的對象集合,包括事件中的所有參與者和涉及到的對象,將事件對象分為主體和客體。T表示事件發(fā)生的時間段,事件時間可以是絕對時間也可以是相對時間,兩類時間都可以通過計算轉換成形如[t1,t2]的序偶表示,以此描述事件的開始、發(fā)展和結束時間,當開始時間和結束時間一樣時,表示事件發(fā)生在瞬間。P表示事件發(fā)生的地點,可以表示物理地點(如中國香港、302國道),也可以表示邏輯位置(如淘寶網(wǎng)、微信朋友圈)。S表示事件發(fā)生過程中對象的狀態(tài)集合,由事件發(fā)生的前置條件、后置結果集合組成。前置條件指該事件發(fā)生前滿足事件發(fā)生的觸發(fā)條件的對象狀態(tài)集合;后置結果是事件發(fā)生后對象結果狀態(tài)的集合。L表示事件的語言表現(xiàn),主要包括事件核心詞表現(xiàn)和事件核心詞搭配。核心詞表現(xiàn)為事件在句子中常用的標志性詞匯,通常也是計算機識別事件的觸發(fā)詞;核心詞搭配是指核心詞與其他詞匯的固有搭配。在事件的6個要素中,前5個要素是事件的內在要素。
實例1這些天,上海遭遇霧霾圍城,PM2.5值突破了300。
事件名:上海遭遇霧霾
動作(觸發(fā)詞):遭遇霧霾、突破
對象:PM2.5值
時間:這些天
地點:上海
狀態(tài):前置狀態(tài)={PM2.5值正常,空氣質量正常},后置狀態(tài)={PM2.5大于300,空氣質量惡劣}
語言表現(xiàn):霧霾事件={霧霾},事件搭配={“遭遇”+事件名}
定義2(事件類)事件類指具有共同特征的事件的集合,它由事件的外延和內涵構成。事件類的外延指的是由屬于該事件類的事件實例組成的集合。事件類的內涵指的是屬于該事件類的所有事件實例在某個要素上具有的共同特性。
定義3(事件關系)事件關系指存在于事件類或事件之間的語義關系,事件關系分為兩類:分類關系和非分類關系。其中分類關系指的是事件類之間的包含關系或父子關系;非分類關系指的是事件或事件類之間內在的語義關系,包括組成關系(isComposed-Of)、跟隨關系(follow)、因果關系(causal)和并發(fā)關系(concurrence)。
包含關系(subsumption或is_a):指事件類存在種屬關系。對于事件類EC1={E1, C1A, C1O, C1T, C1P, C1S, C1L}和事件類EC2={E2, C2A, C2O, C2T, C2P, C2S, C2L},存在EC1?EC2當且僅當C1A?C2A∧C1O?C2O∧C1T?C2T∧C1P?C2P∧C1S?C2S。包含關系只用于事件類之間,比如污染事件類和水污染事件類就是包含關系。事件類包含關系形式化為Ris_a。
組成關系(isComposedOf):當事件類EC1中的一個事件實例由事件類EC2中的某個事件實例組成時,稱事件類EC1由事件類EC2組成,或稱事件類EC2是事件類EC1的組成事件類?!按髿馕廴尽笔录愑伞拔廴疚锱欧拧薄ⅰ皺z測污染源”等事件類組成。組成關系形式化為Rcomp。
因果關系(causal):事件類EC1的實例事件發(fā)生以一定的概率導致了事件類EC2的實例事件發(fā)生,發(fā)生的概率大于給定的閾值,則稱兩事件類之間存在因果關系,稱EC1是EC2的因,EC2是EC1的果。因果關系形式化為Rcause。因果關系不但反映了事件之間的相互影響,還在時間上反映了事件發(fā)生的先后關系。如:
6月1日,阿富汗坎大哈市內的一座清真寺發(fā)生爆炸事件,造成包括喀布爾市警察總監(jiān)在內的至少40人死亡,另有60人受傷。
其中“爆炸”和“死亡”、“受傷”是因果關系。
跟隨關系(follow):在一定長度的時間段內,事件類EC1的實例事件發(fā)生后,存在事件類EC2的實例事件接著發(fā)生,則稱兩事件類之間存在跟隨關系,形式化表示為Rfollow。跟隨關系具有時間上的先后順序,如:“企業(yè)偷排污染物”和“企業(yè)掩蓋偷排事實”,“起床”和“刷牙”等。
并發(fā)關系(concurrence):在一定長度的時間段內,存在事件類EC1的實例事件和EC1的實例事件同時或先后發(fā)生(兩個事件實例發(fā)生的事件存在重合),則稱兩事件類之間具有并發(fā)關系,形式化為Rconcurrence。
在以上5種關系中,包含關系只適用于描述事件類之間的關系,其余4種關系可用于描述事件類之間的關系以及事件實例之間的關系。
2.2事件模型結構
如圖1所示,本文提出的事件模型支持對事件、事件類及事件(類)關系的表示,嚴格區(qū)分事件類和事件個體的表示,這種表示方法借鑒了大多數(shù)術語詞典中的類別表示法,也和傳統(tǒng)本體中概念和個體相對應。此外,在事件類模型中,除了語言表現(xiàn)以外的事件要素類都是可以獨立存在的,而且盡可能使用現(xiàn)有的一些本體庫(概念術語庫),本文通過建立這些要素類和現(xiàn)有本體術語的等價關系,盡可能提高事件要素的可重用性。例如事件的參與者要素可以復用FOAF本體中的Agent類,地點要素可以復用Geospatial Ontologism[9]中的SpatialThing類。這些事件要素類與所關聯(lián)的事件類不相交,從而使得這些事件要素類可以充分地被復用。比如事件的地點要素類,可以是“城市”類——GeographicalRegion、“陸地地址”類——LandAddress或者“水域地址”類——WaterAddress,而這些類可以被不同的事件類所復用。又如事件時間的表示,可以復用Time Ontology 的TemporalEntity類,即可表示時間點,也可以表示時間段,同時可表示絕對時間和相對時間。
本文提出的事件模型結構中,雖然定義了6個要素,但是在文本處理中,只需要一個事件觸發(fā)詞(即事件包含的動作)就可以識別或構建一個事件類或事件實例,其他要素可以省略。因此可以構建抽象事件類,從而保證事件類的簡單性和可復用性。
2.3事件本體模型結構
定義4(事件本體)事件本體是對客觀存在的事件類系統(tǒng)的可共享的明確的形式化規(guī)范說明。其邏輯結構可定義為一個四元組EO =
(1)UECs是事件本體中的頂層事件分類(up event class)集合,每個UEC表示一個分類,所有UEC構成一個事件的樹形分類結構;
(2)ECs={EC1, EC2,…, ECn},表示事件類集合;
(3)R ={r|r是
(4)Rules是由邏輯語言表示的規(guī)則集合,包括針對上層事件分類的推理規(guī)則和事件關系的推理規(guī)則。這些規(guī)則最初是建立在領域本體上的,在領域事件本體的不斷學習過程中,規(guī)則也可得到不斷充實。
Fig.1 Event model structure圖1 事件模型結構圖
本體設計模式是一種針對復發(fā)性本體設計問題的可重用的建模解決方案[10]。本體設計模式的基本思想與軟件設計模式十分相似。本體設計模式是一套本體元素、結構或構建原則,用來解決具體的本體工程問題,可重復使用,以準確復制或改編的形式出現(xiàn)在某些本體集中,或者出現(xiàn)在將來的本體中。同樣,本體設計模式有助于改善本體設計質量,提高本體的可重用性,提高本體的可維護性,使得本體更容易被理解[11]。事件本體是由一組事件類組成的系統(tǒng)模型,并對模型建立了明確的、形式化的描述說明[12]。因此,本體設計模式(ontology design pattern,ODP)能夠應用于事件本體的構建工作中。本文將事件本體設計模式命名為EODP(event ontology design pattern)。事件本體設計模式能夠改進事件本體模型的可重用行和可擴展性,提高本體開發(fā)效率,同時也能夠簡化和標準化不同應用領域的異構的基于事件的語義數(shù)據(jù)的集成工作。
事件本體模式的粒度因不同的抽象程度而不同。一般來說,抽象程度越高,可重用的范圍越大,本體模式的粒度也越大,但是可重用的元素就越少。相反,抽象程度越低,可重用的范圍越小,本體模式的粒度也就越小,但是可重用元素越多。因此,建立事件本體模式需要在抽象程度和可重用元素的數(shù)量之間找到平衡點。本文的觀點是,在不同的應用領域建立相應的事件本體模式,例如在環(huán)境污染突發(fā)事件領域、交通事故領域、恐怖襲擊領域等。事件本體模式通常是通過對具體的領域本體進行抽象得到的,也就是說,可以將不同事件本體中公有的事件類、事件要素和事件關系結構提取出來,抽象出一個通用的事件本體模型。當需要創(chuàng)建一個新的具體的事件本體時,相應的事件類或事件關系可以按照本體設計模式進行重用。即參照建模的場景,對模式中的事件類(包括事件要素和事件關系)進行繼承、擴展或覆蓋。
事件本體模式的建立通常按照以下幾個步驟:
(1)抽象出事件本體的公共部分。針對要建立事件本體模式的領域,對該領域中不同類型的具體突發(fā)事件案例進行本體建模(例如建立具體的空氣污染、水域污染和工廠排污等本體),并通過不斷的分析和驗證,抽取出不同子領域本體模型中可復用的抽象事件類和事件要素。
(2)建立事件本體模式。利用步驟(1)中抽取出的事件類和事件要素建立抽象事件本體模型,即事件本體模式。
(3)驗證和修正本體模式。通過復用步驟(2)中的事件本體設計模式,為其他子領域建立事件本體模型,驗證事件本體設計模式與新建事件本體在事件類、事件要素和事件關系上的一致性,并對本體模式進行修正。
下面闡述環(huán)境污染突發(fā)事件領域的事件本體模式構建過程。
環(huán)境污染問題具有多樣性,包括空氣污染、水污染、土壤污染、核污染或電磁污染等。因此,根據(jù)不同的污染問題構建不同的本體是十分困難的,并且需要花費大量的時間。通過分析不同類型的污染事件以及由其引發(fā)的社會事件的基本特征不難發(fā)現(xiàn),在污染突發(fā)事件的事件本體模型中總是存在許多相似的事件類和事件要素,以及組成結構相似的事件關系。例如,空氣污染事件本體和水污染事件本體都包含事件類“污染(Pollution)”,而事件類“污染(Pollution)”在要素層面總是包含一個參與者“污染方(polluters)”和一個對象“污染物(pollutant)”。因此,可以將不同類型的環(huán)境突發(fā)事件本體中公有的事件類、事件要素和事件關系結構提取出來,抽象出一個通用的事件本體模型。
3.1事件本體構建
本節(jié)首先分別為不同應用場景的環(huán)境污染進行本體建模。由于篇幅所限,本文僅討論兩種具體本體:“工廠廢氣排放污染事件本體”和“交通工具化學品泄漏水域污染事件本體”。同時,將嘗試發(fā)現(xiàn)這兩個本體之間諸多相似的事件類和事件要素。通過對來自互聯(lián)網(wǎng)超過60篇有關空氣污染和水污染的文章進行分析和事件標注,在相關環(huán)境專家的指導下,創(chuàng)建了兩個本體,如圖2和圖3。
Fig.2 Event ontology of air pollution incident caused by factory gas emissions圖2 工廠廢氣排放污染事件本體
圖2包含了空氣污染突發(fā)事件中的幾個關鍵的事件類以及它們之間的事件關系(圖中省略了事件要素)。該本體描述了“工廠排污”(Factory Emission)引發(fā)“空氣污染”(Air Pollution);“空氣污染”(Air Pollution)又導致了“居民吸入有毒氣體”(Inhalation of Toxic Gases)和“樹木死亡”(Death of Trees);“居民吸入有毒氣體”(Inhalation of Toxic Gases)又引發(fā)了“健康危害”(Health Hazard)以及“居民投訴”(Residents Complaints);“健康危害”(Health Hazard)包括“頭暈”(Dizzy)、“惡心”(Nausea)、“咳嗽”(Cough)等“居民不良反應”(Adverse Reaction of Residents),還包括“中毒”(Poisoning)和“死亡”(Death)兩種“嚴重的不良反應”(Sharp Adverse Reaction of Residents);“居民投訴”(Residents Complaints)則導致了“環(huán)保部門調查”(EPAInvestigation)。
Fig.3 Event ontology model of water pollution incident caused by vehicle chemical leakage圖3 交通工具化學品泄漏水域污染事件本體
表1羅列了空氣污染事件本體中關鍵的事件類,以及與其單向關聯(lián)的事件類和事件關系類型。
圖3描述的是交通工具化學品泄漏引發(fā)水域污染的事件本體。該本體包含的幾個主要的事件類及其事件關系是:“交通工具化學品泄漏”(Vehicle Chemical Leakage)造成了“河流污染”(River Pollution);“河流污染”導致“居民飲用水源受污”(Residents Drinking Water Pollution)以及“動物死亡”(Animal Death);隨之而來的是“居民飲用了受污染的水”(Residents Drink Polluted Water)而導致“健康危害”(Health Hazard of Residents)。當居民遭受了健康危害,會抱怨政府部門或通過互聯(lián)網(wǎng)發(fā)布其遭遇,即“居民投訴”(Residents Complaints)。并且,一些居民還可能會“搶購飲用水”(Panic Buying Drinking Water)。同時,“健康危害”又可以細分為“居民不良反應”(Adverse Reaction of Residents),如“腹瀉”(Diarrhea)、“惡心”(Nausea)、“嘔吐”(Emesis)、“頭暈”(Dizzy)等,和“嚴重的健康損害”(Severely Heath Injury of Residents),如“中毒”(Poisoning)和“死亡”(Death)。“居民的投訴”引起“記者秘密調查”(Reporter Secretly Investigation);進而導致“環(huán)保部門調查”(EPA Investigation)。隨后,環(huán)保部門采取措施“緊急對飲用水源進行清理”(Emergency Purify Drinking Water Source)。
表2列出了交通工具化學品泄漏引發(fā)水域污染本體中主要的事件類,以及與其單向關聯(lián)的事件類和事件關系類型。
3.2構建事件本體模式
構建一個領域內的本體模式首先需要對具體領域事件本體中的事件類進行分析,然后對這些事件類進行抽象(見表2中的抽象事件類列)。例如,事件類“動物死亡”(Animal Death)可以抽象為一個父事件類“生態(tài)破壞”(Ecological Damage)。如果不同本體存在共同的抽象類,那么相關的事件類、事件要素、事件關系則可以被用來構建本體模式。本文提出了一種構建事件本體模式的算法,見算法1。該算法描述了從多個特定的事件本體中抽取出抽象的事件類、事件要素(對象objects和施動者actors)以及事件關系。在本體語言描述的事件類中,時間要素和地點要素總是被定義為一種非正式的表達式,或者引用外部本體詞匯。例如,事件類“河流污染”(River Pollution)的地點要素可以定義為一個由外部詞匯而來的靜態(tài)概念“水域地址”(Water Address),也可以用自然語言來進行描述,如“臨近河流的區(qū)域”。事件的狀態(tài)和動作總是定義為帶約束的邏輯斷言。例如,環(huán)境突發(fā)事件的前置狀態(tài)被定義為discharged (pollutants, place)??梢姡瑫r間、地點要素和事件類狀態(tài)很難被機器自動識別和精確比較。因此,當創(chuàng)建一個事件本體模式時,通常需要對模式中事件類的時間、地點和狀態(tài)要素進行人工提煉。
Table 1 Event classes and relations in event ontology of air pollution incident caused by factory gas emissions表1 工廠廢氣排放污染事件本體事件類及事件關系
Table 2 Event classes and relations in event ontology of water pollution incident caused by vehicle chemical leakage表2 交通工具化學品泄漏水域污染事件本體事件類及事件關系
利用算法1可以從空氣污染事件本體和水污染事件本體中提取抽象事件類和通用的事件要素,如“污染者”(polluters)、“污染物”(pollutants)、“居民”(residents)、“調查者”(investigator)等。
算法1針對事件本體模式的事件類和要素提取算法
輸入:事件本體集合eventOntology。
步驟1遍歷eventOntology中所有的事件本體,找出存在于eventOntology中所有事件本體的同名父事件類,將這些父事件類保存在abstractEventClass集合中。
步驟2從abstractEventClass集合選擇一個事件類abstractEventClassA,然后在所有的事件本體中,各自找出abstractEventClassA的子事件類保存在集合eventClassA;在eventClassA集合中查找這樣的事件類,該事件類具有作為起始端相同的關聯(lián)關系relationA,而且關聯(lián)的終端事件類具有同名的父事件類abstractEventClassB,則建立一個抽象關系abstract-Relation,該關系與relationA類型相同,抽象關系abstractRelation的端點事件為parentEventClassA,終點事件類為parentEventClassB。將abstractRelation加入到abstractEventClassA的關系集合中。
步驟3遍歷eventClassA中的事件類,找出存在于eventClassA中所有事件類的同名對象和同名參與者,保存在對象集合objectA和actorA中。將對象集合objectA追加到abstractEventClass的對象集合,actorA追加到abstractEventClass的參與者集合中。
步驟4重復步驟2,直到abstractEventClass中所有的事件類都被處理完畢。
輸出:abstractEventClass集合。
利用算法1對表1和表2事件本體中的事件類進行抽象和提取,在此基礎上人工提取抽象的事件時間、地點和狀態(tài),形成由抽象事件類構成的環(huán)境突發(fā)事件本體模式,見圖4。通過對圖4中的事件本體模式進行擴展、復用等,可以快速構建諸如城市霧霾、核泄漏污染等突發(fā)事件的本體模型。
事件本體模式將具有共性的事件和事件類進行抽象,在特定領域建立通用的事件本體模型。在圖4環(huán)境污染突發(fā)事件本體模式中,將所有相關的事件類參照各自所描述的對象分成了3個主題:污染突發(fā)事件主題(pollution incident subject,區(qū)域1),社會效應事件主題(social event category,區(qū)域2),自然效應事件主題(natural event category,區(qū)域3)。每個部分包含了語義上相關的事件類。不同的事件類之間通過事件關系進行關聯(lián),從而形成了一個事件類網(wǎng)絡。因此,可以在特定的領域使用通用的本體模式對不同事件本體進行構建。本章將分別闡述在本體模式中的事件類和事件要素的語義,并使用描述邏輯[13-15]對事件類和要素進行形式化。采用描述邏輯中的DLP?對事件及要素概念進行表示,表示方法支持可判定推理,可保證對本體模式中事件類和事件要素進行繼承和實例化時概念的一致性。
污染突發(fā)事件主題包含了基本的事件類(Environment Emergency),并通過因果關系與社會效應事件主題(如投訴事件,Complaint)和自然效應事件主題(如樹木損毀事件,Tree Damaged)兩個部分進行關聯(lián)。這部分是整個本體模式的起點和主線,包含了兩個重要的事件類:環(huán)境突發(fā)事件類(Environment Emergency)和污染事件類(Pollution),并且兩個事件類之間構成了因果關系。這樣的結構將“工廠排放廢氣(Factory Emission)”、“交通事故化學品泄漏(Vehicle Chemical Leakage)”等事件都歸結成這樣一種統(tǒng)一的模型:一個誘因性質的突發(fā)事件與一個結果性質的污染事件。而不同污染事件的本體的差異特性可以反映到“污染”事件類的各個要素集合上去。具體地說,環(huán)境突發(fā)事件類包含了“排放”動作(Emission)、動作的施動方“污染者”(Polluters)、動作的客體對象“污染物”(Pollutants)以及時間和地點要素。這些事件要素就是區(qū)分不同污染突發(fā)事件或事件類的關鍵,同時也是形成統(tǒng)一模式的依據(jù)。
Fig.4 Event ontology pattern for environmental pollution emergency圖4 環(huán)境污染突發(fā)事件本體模式
環(huán)境突發(fā)事件類(Environment Emergency)和污染事件類(Pollution)之間的因果關系可以形式化如下:
如果將事件類擴展到基本的事件要素,可以用如下規(guī)則進行表示:
用描述邏輯DLP?表示如下:
其中,概念Polluters表示排污者;概念Pollutants表示污染物;角色Discharge表示排放;概念Place代表事件的地點;角色Discharged代表污染物被排放在某地;概念Area表示地方區(qū)域,它與Place一樣也是地點要素,很多時候其對應的實例是同一個。但有時Area表示的地點范圍可能更大,因為污染影響的區(qū)域Area可能在范圍上超過了原先排放污染物的地點Place。
當創(chuàng)建一個具體的環(huán)境突發(fā)事件本體時,該本體中的事件類可從本體模式中對應的事件類繼承獲得。參考面向對象方法思想,繼承是一種包含關系(is_a)。例如,環(huán)境突發(fā)事件(Environment Emergency)包含交通工具化學品泄露(Vehicle Chemical Leakage),其可以表示如下:
如果擴展到具體本體中的事件要素,依然可以通過繼承本體模式中對應的要素進行創(chuàng)建。這些事件要素被定義為概念和角色,能夠采用一般化概念包含規(guī)則(general concept inclusion,GCI)進行繼承。在圖3所描述的交通工具化學品泄漏水域污染事件本體中,排污者是交通工具(Vehicle),污染物是化學品(Loaded Chemicals),而河流污染(River Pollution)是污染的一種,因此可以表示如下:
上述規(guī)則中概念之間的繼承關系實現(xiàn)了事件要素之間的對應與關聯(lián)。通過這種方法,可以將本體模式的污染突發(fā)事件部分應用于該事件本體。
參照上述公理將事件類擴展到基本的事件元素,可以將該部分內容表示為如下規(guī)則:
公理(10)和公理(11)轉換成描述邏輯表示如下:
污染突發(fā)事件部分的其他事件類和事件要素也可以通過同樣的方法進行形式化。
圖4中本體模式的社會效應部分包含了一系列因污染事件導致的人類活動,包括構造了“接觸有毒物質”(Exposure to Toxic Substances)、“居民不良反應”(Adverse Reaction of Residents)、“抱怨”(Complaints)、“非官方調查”(Private Investigation)、“官方調查”(Official Investigation)、“官方回應行動”(Official Investigation)多個事件類。不同事件類之間按照非分類關系進行連接:“接觸有毒物質”事件類與“抱怨”和“居民消極反應”兩個事件類之間都是因果關系,同時“抱怨”和“居民消極反應”兩個事件類之間是并發(fā)關系?!氨г埂笔录惻c“非官方調查”、“官方調查”事件類之間分別是跟隨關系和因果關系。“官方調查”與“官方回應行動”兩個事件類之間是跟隨關系。這部分的幾個事件類組成的關系網(wǎng)絡,對于實現(xiàn)以統(tǒng)一的解決方案構造各類環(huán)境污染突發(fā)事件本體中的諸多社會效應事件類有著重要的借鑒意義。
上述公理是基于事件元素的規(guī)則描述。事件類“接觸有毒物質”(Exposure to Toxic Substances)指的是居民在污染物排放地點接觸到其中的有毒物質。事件類“投訴”(Complaints)描述的是居民因污染事件向環(huán)保部門投訴,并且環(huán)保部門了解到該事件,因此公理(14)可以擴展為以下程序:
公理(20)和公理(21)采用描述邏輯可以表示如下:
其中,概念Pollutants代表環(huán)境突發(fā)事件中被排放的污染物;概念Area指的是事件發(fā)生的區(qū)域;角色Pollute描述的是某物污染某地的動作要素,關聯(lián)了概念Pollutants和概念Area的實例;角色LocatedIn表示的是某人居住在特定的區(qū)域,該動作要素關聯(lián)了參與者概念Residents和地點概念Area;角色Intaked指的是某人或動物吸入某物質;角色OffenceReport代表特定人群(如居民Residents)對某對象的投訴并被公開報道;概念EPA指的是環(huán)保部門。
公理(15)描述的是居民“投訴”(Complaints)導致了“官方調查”(Official Investigation),兩個事件類之間屬于因果關系。通過將事件類擴展到事件要素的各個狀態(tài)上,可以生成如下規(guī)則:
公理(26)采用描述邏輯語法規(guī)則可以表示為:
其中,角色Informed表示某人被告知了某事;角色Investigate表示環(huán)保部門對污染者進行調查。公理(16)的形式化方法與公理(15)相似,這里不再贅述。
公理(17)描述的是官方即政府有關部門在對污染事件調查之后作出反應并采取行動(如清除污染物)。公理(17)的事件類可以擴展為如下規(guī)則:
轉換成描述邏輯可表示如下:
由于篇幅所限,本文不再對本體模式中社會效應部分的其他事件類的信息進行具體說明。
環(huán)境污染突發(fā)事件本體模式中的自然效應部分描述的是一系列由污染引發(fā)的自然事件。本文在該本體模式中定義了一個通用的自然事件類Ecological Damage,表示動物或植物的死亡或者受到損害。這里以“動物因污染死亡”為例,將其形式化后的規(guī)則表示如下:
采用描述邏輯DLP?進行表示,可以得到如下公理:
其中,Pollutants、Animal、Area和Died都是概念;角色Pollute描述的是某物污染某地的動作要素,關聯(lián)了概念Pollutants和概念Area的實例;角色LiveIn表示某些動物在某地生活或棲息。
上述公理和形式化方法可以應用于創(chuàng)建新的具體事件本體。例如,事件本體“魚類因河流污染而死亡”可以參照本體模式的這部分內容進行形式化。
采用描述邏輯DLP?進行表示,得到如下公理:
其中,River、ToxicSubstance和Fish都是概念。
此外,利用上述所定義的本體模式中相應的事件類和事件要素概念可以對文本中的事件進行實例化和形式化表示。例如:“位于臺北市地鐵市府站旁的中油直營加油站,日前遭臺北市環(huán)保局稽察發(fā)現(xiàn),地下水每公升含‘甲基第三丁基醚’MTBE達3.48毫克,超過管制標準。今早當?shù)嘏d雅里民齊聚加油站抗議,要求加油站搬遷”。
這里僅抽取一個事件的邏輯程序公理以說明。
將文本示例中的事件要素實例抽取出來,a為地點要素“臺北市地鐵市府站旁的中油直營加油站”;mtbe為污染物實例“甲基第三丁基醚”;p為市民實例。存在以下斷言:Area(a),Pollutants(mtbe),People (p),LiveIn(p,a)。令解釋I=(ΔI,?I),其中非空概念集合ΔI和函數(shù)?I構成的二元組,ΔI為I的論域,則可以得到:
本文通過將事件中的不同要素類抽象為描述邏輯中的概念和角色,并將事件關系中的要素聯(lián)系通過形式化公理進行表示,形成能夠有效概括此類事件的通用模式。結合一些傳統(tǒng)本體中的概念層次,可以將概念一致的類和相應的實例應用到該模式當中,見公理(1)~(32)。最后通過事件本體中的概念構建和文本中事件實例的描述驗證了事件本體模式在構建新的本體(包括概念和實例)過程中的有效性和概念一致性。
本體模式作為解決本體復用等問題的解決方案被提出[16],并獲得了越來越多的研究人員關注。目前,本體模式已經(jīng)被應用到醫(yī)藥信息[11,17]、地理信息系統(tǒng)[18-20]、生物科學[21]等各個領域。但是國內外針對基于事件的本體模式研究,仍處于探索和起步階段。由于人類認知的差異性,針對不同應用領域進行事件本體建模具有很高的難度。本文提出了一種具有一般性的事件模型結構和針對Web事件知識進行表示和推理的事件本體模型。該事件結構將不同類型的離散事件要素有機地結合在一起,建立起事件和事件要素的語義聯(lián)系,形成一個統(tǒng)一的事件知識表示單元;同時利用事件狀態(tài)這一要素實現(xiàn)了對事件發(fā)生時動態(tài)過程的表示;5種事件關系可以較完整地描述事件或事件類之間的語義關系。此外,提出了一種應用于環(huán)境污染突發(fā)事件領域的事件本體模式,用以實現(xiàn)在該領域進行類似于面向對象設計模式的可重用的本體設計方案。該模式能夠提高本體建模的效率,降低構建事件本體的難度?;贒LP?的模式形式化方法,簡化了事件之間復雜的語義關系,使模式中的事件類和要素等概念支持可判定推理。然而,本文所涉及的研究工作仍然存在局限性,如缺乏標準的事件本體語言,以及對事件間的非分類關系進行可判定推理等。這些工作都需要在今后做進一步的研究。同時,如何在構建事件本體模式時對可重用性和有效性之間進行合理的權衡也是未來需要研究的內容。
References:
[1] Liao Zhenliang, Liu Yanhui, Xu Zuxin. Environmental pollution emergency response plan system based on case reasoning[J]. Environmental Pollution and Control, 2009, 31 (1): 86-89.
[2] Shao Quan, Weng Wenguo, He Changhong, et al. Model hierarchical network representation method in emergencies model base[J]. Journal of Tsinghua University: Science and Technology, 2009, 49(5): 625-628.
[3] Jihan S H, Segev A. Humanitarian assistance ontology for emergency disaster response[J]. IEEE Intelligent Systems, 2014, 29(3): 6-13.
[4] Wang Tao, Wang Yanzhang, Lu Yanxia. Research on public emergencies meta-event model based on ontology[J]. Journal of Dalian University of Technology, 2012, 52(3): 458-463.
[5] van Hage W R, de Vries G K D, van Someren M W. Abstracting and reasoning over ship trajectories and Web data with the simple event model (SEM)[J]. Multimedia Tools &Applications, 2012, 57(1): 175-197.
[6] Raimond Y, Abdallah S, Sandler M, et al. The music ontology[C]//Proceedings of the 8th International Conference on Music Information Retrieval, Vienna, Austria, Sep 23-27, 2007: 417-422.
[7] Scherp A, Franz T, Saathoff C, et al. F-a model of events based on the foundational ontology DOLCE+ultra light[C]// Proceedings of the 5th International Conference on Knowledge Capture, Redondo Beach, USA, Sep 1-4, 2009. New York, USA:ACM, 2009: 137-144.
[8] Shaw R, Troncy R, Hardman L. LODE: linking open descriptions of events[C]//LNCS 5926: Proceedings of the 4th Asian Semantic Web Conference, Shanghai, China, Dec 6-9, 2009. Berlin, Heidelberg: Springer, 2009: 153-167.
[9] Di Liping, Zhao Peisheng. Geospatial semantic Web, interoperability[M]//Encyclopedia of GIS. [S.l.]: Springer US, 2008: 398-403.
[10] Daga E, Blomqvist E, Gangemi A, et al. D2.5.2 pattern based ontology design: methodology and software support, EU-IST-027595[EB/OL]. NeOn Integrated Project (2010) [2015-05-16]. http://www.neon-project.org.
[11] Mortensen J M, Horridge M, Musen M A, et al. Applications of ontology design patterns in biomedical ontologies [C]//AMIA Annual Symposium Proceedings, Chicago, USA, 2012: 643-652,
[12] Liu Wei, Liu Zongtian, Fu Jianfeng, et al. Extending OWL for modeling event-oriented ontology[C]//Proceeding of the 4th International Conference on Complex, Intelligent and Software Intensive Systems. Washington, USA: IEEE Computer Society, 2010: 581-586.
[13] Straccia U. A fuzzy description logic for the semantic Web[J]. Capturing Intelligence, 2006, 1: 73-90.
[14] Gasse F, Sattler U, Haarslev V. Rewriting rules into SROIQ axioms[C]//Proceedings of the 21st International Workshop on Description Logics, Dresden, Germany, May 13-16, 2008.
[15] Krotzsch M, Rudolph S, Hitzler P. ELP: tractable rules for OWL 2[C]//LNCS 5318: Proceedings of the 7th International Semantic Web Conference, Karlsruhe, Germany, Oct 26-30, 2008. Berlin, Heidelberg: Srpinger, 2008: 649-664.
[16] Gangemi A. Ontology design patterns for semantic Web content[C]//LNCS 3729: Proceedings of the 4th InternationalSemantic Web Conference, Galway, Ireland, Nov 6- 10, 2005. Berlin, Heidelberg: Srpinger, 2005: 262-276.
[17] Martínez-Costa C, Karlsson D, Schulz S. Ontology patterns for clinical information modelling[C]//Proceedings of the 5th Workshop on Ontology and Semantic Web Patterns, 2014: 61-72.
[18] Hu Yingjie, Janowicz K, Carral D, et al. A geo-ontology design pattern for semantic trajectories[C]//LNCS 8116: Proceedings of the 11th International Conference on Spatial Information Theory. Berlin, Heidelberg: Srpinger, 2013: 438-456.
[19] Carral D, Scheider S, Janowicz K, et al. An ontology design pattern for cartographic map scaling[C]//LNCS 7882: Proceedings of the 10th International Conference on the Semantic Web: Semantics and Big Data, Montpellier, France, May 26-30, 2013. Berlin, Heidelberg: Springer, 2013: 76-93.
[20] Carral D, Janowicz K, Hitzler P. A logical geo-ontology design pattern for quantifying over types[C]//Proceedings of the 20th International Conference on Advances in Geographic Information Systems, Redondo Beach, USA, Nov 6-9, 2012. New York, USA:ACM, 2012: 239-248.
[21] Aranguren M E, Antezana E, Kuiper M, et al. Ontology design patterns for bio-ontologies: a case study on the cell cycle ontology[J]. BMC Bioinformatics, 2008, 9(1): 279-282.
附中文參考文獻:
[1]廖振良,劉宴輝,徐祖信.基于案例推理的突發(fā)性環(huán)境污染事件應急預案系統(tǒng)[J].環(huán)境污染與防治, 2009, 31(1): 86-89.
[2]邵荃,翁文國,何長虹,等.突發(fā)事件模型庫中模型的層次網(wǎng)絡表示方法[J].清華大學學報:自然科學版, 2009, 49 (5): 625-628.
[4]王濤,王延章,魯艷霞.突發(fā)公共事件基于本體的元事件模型研究[J].大連理工大學學報, 2012, 52(3): 458-463.
LIU Wei was born in 1978. He received the Ph.D. degree from Shanghai University in 2005. Now he is an associate professor at Shanghai University, and the member of CCF. His research interests include knowledge representation and reasoning, semantic network and ontology technologies, etc.
劉煒(1978—),男,江西贛州人,2005年于上海大學獲得博士學位,現(xiàn)為上海大學計算機工程與科學學院副研究員,CCF會員,主要研究領域為知識表示與推理,語義網(wǎng)與本體技術等。發(fā)表學術論文40余篇,主持國家自然科學基金項目1項、上海市自然科學基金項目1項,以主要成員參與國家自然科學基金項目4項。
DING Ning was born in 1986. He is an M.S. candidate at Shanghai University. His research interests include knowledge representation and machine learning, etc.
丁寧(1986—),男,上海人,上海大學計算機工程與科學學院碩士研究生,主要研究領域為知識表示,機器學習等。
YANG Junhui was born in 1981. He is a Ph.D. candidate at Shanghai University. His research interests include knowledge representation, natural language processing and Web data mining, etc.
楊竣輝(1981—),男,江西贛州人,上海大學計算機工程與科學學院博士研究生,主要研究領域為知識表示,自然語言處理,Web數(shù)據(jù)挖掘等。發(fā)表學術論文10余篇,主持省級課題2項,以主要成員參與國家自然科學基金2項。
WANG Xu was born in 1989. He is an M.S. candidate at Shanghai University. His research interests include natural language processing and machine learning, etc.
王旭(1989—),男,江蘇睢寧人,上海大學計算機工程與科學學院碩士研究生,主要研究領域為自然語言處理,機器學習等。
ZHANG Yujia was born in 1992. She is an M.S. candidate at Shanghai University. Her research interests include knowledge representation and machine learning, etc.
張雨嘉(1992—),女,浙江杭州人,上海大學計算機工程與科學學院碩士研究生,主要研究領域為知識表示,機器學習等。
LIU Zongtian was born in 1946. He received the M.S. degree from Beijing University of Aeronautics and Astronautics in 1982. Now he is a professor and Ph.D. supervisor at Shanghai University. His research interests include artificial intelligence and software engineering, etc.
劉宗田(1946—),男,1982年于北京航空航天大學計算機科學與工程系獲得碩士學位,現(xiàn)為上海大學計算機工程與科學學院教授、博士生導師,主要研究領域為人工智能,軟件工程等。
Event Ontology Pattern for Domain of Environmental Pollution Emergency?
LIU Wei+, DING Ning, YANG Junhui, WANG Xu, ZHANG Yujia, LIU Zongtian
School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China
+ Corresponding author: E-mail: liuw@shu.edu.cn
LIU Wei, DING Ning, YANG Junhui, et al. Event ontology pattern for domain of environmental pollution emergency. Journal of Frontiers of Computer Science and Technology, 2016, 10(4): 466-480.
Abstract:Event ontology design pattern (EODP) is a solution to facilitate event ontology development, and to help reducing arbitrariness design and avoiding the same mistakes in the modeling process. This paper firstly proposes a general event model structure for the representation of general event information on Web, without making assumptions about the domain-specific vocabularies used. And then, this paper presents the concept of EODP and the development method of EODP, by which an environment pollution event ontology pattern is proposed based on shared vocabulary. At last, this paper discusses the formalization of the environment pollution event ontology pattern by using the description logic, which verifies the effectiveness and concept-consistency while modeling domain ontology by using the event ontology pattern.
Key words:environmental pollution emergency; event ontology pattern; description logic
文獻標志碼:A
中圖分類號:TP391
doi:10.3778/j.issn.1673-9418.1506033