朱光++楊嘉韻++吳先華++豐米寧
〔摘要〕通過對本體、形式概念分析等理論研究進行分析,提出一種以“文檔——術(shù)語”為核心,形式概念分析為技術(shù)手段的氣象災(zāi)害領(lǐng)域的本體構(gòu)建方法。針對氣象災(zāi)害領(lǐng)域知識庫和主題詞表的缺失,以中英文學(xué)術(shù)論文為數(shù)據(jù)源,對氣象災(zāi)害領(lǐng)域術(shù)語的層次關(guān)系抽取和分析進行了詳細闡述和論證,具體包括領(lǐng)域術(shù)語的抽取和篩選,文檔術(shù)語矩陣的建立,主題概念格的生成,術(shù)語層次關(guān)系分析;本體OWL描述和可視化展示等過程,最后利用GATE Developer對構(gòu)建本體的有效性進行了驗證。
〔關(guān)鍵詞〕氣象災(zāi)害;形式概念分析;術(shù)語;概念格;層次關(guān)系;本體
DOI:10.3969/j.issn.1008-0821.2017.05.014
〔中圖分類號〕G254〔文獻標(biāo)識碼〕A〔文章編號〕1008-0821(2017)05-0079-10
Research on Construction of Hierarchy Relationship and
Ontology of Meteorological Disaster Based on FCAZhu GuangYang JiayunWu XianhuaFeng Mining
(School of Economics and Management,Nanjing University of Information
Science and Technology,Nanjing 210044,China)
〔Abstract〕Based on the analysis of ontology and Formal Concept Analysis(FCA),this paper proposed an effective ontology construction method of meteorological disaster,which was with“documents——terms”as a core and with FCA as a technological means.Aiming at the lack of knowledge base and thesaurus,the extraction and analysis of hierarchy relationship was discussed in detail.Firstly,the professional terms were extracted and filtered from academic paper documents.Secondly,the“documents——terms”matrix and concept lattice were built,then the analysis process of hierarchy relationship of domain terms was discussed.At last,the OWL description and visually displaying of ontology was proposed while the usability of constructed ontology was verified through GATE Developer.
〔Key words〕meteorological disaster;Formal Concept Analysis(FCA);terms;concept lattice;hierarchy relationship;ontology
隨著全球氣候變暖,社會經(jīng)濟活動日益密集,極端天氣事件日益頻發(fā),給我國乃至全世界造成了巨大的經(jīng)濟損失。因此,針對各類氣象災(zāi)害(如洪水、臺風(fēng)、暴雪等),如何在數(shù)據(jù)融合的基礎(chǔ)上,制定有效的應(yīng)急管理措施成為全社會關(guān)注的重要問題。然而,由于我國幅員遼闊,氣象災(zāi)害涉及的地域、機構(gòu)和人員十分復(fù)雜,各個地區(qū)和部門所采集、存儲和共享的氣象災(zāi)害數(shù)據(jù)在領(lǐng)域術(shù)語、概念規(guī)范、數(shù)據(jù)格式上并不一致,這給氣象災(zāi)害多部門協(xié)同應(yīng)急決策帶來了很大的困擾。在大數(shù)據(jù)環(huán)境下,如何利用本體建立一個規(guī)范的氣象災(zāi)害領(lǐng)域術(shù)語體系,描述和融合各類多維、異構(gòu)、不規(guī)范的“氣象災(zāi)害大數(shù)據(jù)” 成為災(zāi)害應(yīng)急管理中的基礎(chǔ)性和緊迫性問題。
所謂本體,被引用最廣泛的定義是由Gruber提出的“本體是對數(shù)據(jù)和概念模型的明確的規(guī)范說明”[1]。具體來說,本體是用來描述某個領(lǐng)域內(nèi)的概念詞表以及概念之間的關(guān)系,使得領(lǐng)域概念具有共同認可的、明確的、惟一的定義。在此基礎(chǔ)上,不同地區(qū)、機構(gòu)、實體乃至人機之間可以克服數(shù)據(jù)的異構(gòu)性,更好地進行協(xié)同合作[2]。在大數(shù)據(jù)環(huán)境下,本體構(gòu)建是一項極其繁雜的工作,人工手動構(gòu)建本體需要耗費大量的時間和財力,半自動和自動的本體構(gòu)建方法越來越受到國內(nèi)外學(xué)者的關(guān)注和青睞。形式概念分析(Formal Concept Analysis,F(xiàn)CA)作為一種基于Harris假設(shè)和獲取本體概念層次的方法,能夠挖掘領(lǐng)域中隱含的概念以及概念之間的層次關(guān)系,通過構(gòu)造概念格(Concept Lattice),半自動地構(gòu)建本體[3]。
本文在沒有外部知識庫和主題詞表的支持下,以CNKI和Web of Science的學(xué)術(shù)文獻為數(shù)據(jù)來源,運用形式概念分析方法,提出一種以“文檔——術(shù)語”為核心,形式概念分析為技術(shù)手段的氣象災(zāi)害領(lǐng)域本體構(gòu)建方法,在非結(jié)構(gòu)化文本資源分詞和詞頻統(tǒng)計的基礎(chǔ)上,利用ConExp構(gòu)建概念格,分析主題概念的層次關(guān)系,采用OWL語言對其進行形式化描述,并以此為基礎(chǔ)構(gòu)建目標(biāo)領(lǐng)域本體。
1國內(nèi)外相關(guān)研究
本體是近年來國內(nèi)外學(xué)者普遍關(guān)注的研究熱點,作為一種能在語義和知識層面描述領(lǐng)域術(shù)語的概念建模工具,已被廣泛應(yīng)用于知識工程、語義檢索、智能挖掘和推理等領(lǐng)域。
目前已有多種本體構(gòu)建方法(如TOVE法、骨架法、METHONTOLOGY法、七步法等[4])和本體構(gòu)建工具(OntoSaurus[5]、WebOnto[6]到Protégé[7]、OntoEdit[8]),運用這些方法和工具,用戶不用了解本體描述語言的細節(jié),就可以進行本體內(nèi)容的組織和數(shù)據(jù)的映射。然而,這些工具提供的僅僅是本體編輯功能,通常需要基于專家的知識結(jié)構(gòu)手工構(gòu)建本體,耗時費力,可移植性差,也會造成概念的冗余[9]。概念格是反映對象與屬性間的聯(lián)系以及泛化與特化關(guān)系的一種完備的概念層次結(jié)構(gòu),通過形式化分析自動生成本體概念層次,并以此作為本體構(gòu)建與生成的基礎(chǔ),可以有效提高本體構(gòu)建效率,避免概念冗余。
目前基于概念格的本體構(gòu)建方法已成功地應(yīng)用于醫(yī)療、信息檢索、知識發(fā)現(xiàn)等領(lǐng)域,Haav[10]提出一種基于概念格的本體構(gòu)建方法,從短文本中提取形式背景,直接引用形式概念分析中的概念層次構(gòu)建概念格,并通過概念格篩選和縮減從形式背景計算得到初始本體;Cimiano等[11]在文獻[10]的基礎(chǔ)上,運用自然語言解析構(gòu)建概念格,并由概念格生成領(lǐng)域本體;Nanda等[12]從結(jié)構(gòu)化的產(chǎn)品材料明細表中提取概念術(shù)語與屬性,并運用FCA分析概念層次,最后基于概念層次結(jié)構(gòu)生成概念格并構(gòu)建領(lǐng)域本體;Juan Cigarrán-Recuero等[13]運用FCA構(gòu)建概念格,對數(shù)字資源的語義注釋進行有效性評估;KBalasubramaniam[14]在形式概念分析的基礎(chǔ)上,構(gòu)建一個基于混合模糊本體(Hybrid Fuzzy-Ontology)的語義檢索模型,可以有效提高檢索的準(zhǔn)確率和召回率;牟冬梅等[15]針對醫(yī)學(xué)領(lǐng)域的專業(yè)性特點,利用形式概念分析描述概念背景,通過“醫(yī)學(xué)系統(tǒng)命名法——臨床術(shù)語(SNOMED CT)”的概念表、描述表和關(guān)系表對構(gòu)建概念格進行修正,在此基礎(chǔ)上構(gòu)建醫(yī)學(xué)領(lǐng)域本體;畢強等[16]針對不同領(lǐng)域的異質(zhì)性和語義分歧性,對異質(zhì)領(lǐng)域本體的概念格進行解析,通過概念相似度計算建立跨本體的映射,并最終構(gòu)建多本體協(xié)同知識地圖;王昊等[17]以“白血病”為例,采用FCA理論將主題背景轉(zhuǎn)換為領(lǐng)域概念格,進而分析概念屬性的術(shù)語之間的上下位關(guān)聯(lián),最終形成領(lǐng)域術(shù)語本體;滕廣青等[18]通過概念格的疊置運算,獲取基于主題詞表和文本兩大異構(gòu)資源的概念格,在此基礎(chǔ)上構(gòu)建異構(gòu)資源領(lǐng)域本體;陸佳瑩等[19]將概念格理論引入產(chǎn)品本體構(gòu)建過程,提出的本體構(gòu)建方法能夠?qū)Ξa(chǎn)品和服務(wù)信息進行形式化的、通用的知識表示,從而滿足企業(yè)進行信息管理的需求。
但從現(xiàn)有研究來看,國內(nèi)外關(guān)于本體理論和技術(shù)在氣象領(lǐng)域的應(yīng)用和研究較少,Joel L C等[20]利用本體描述氣象領(lǐng)域的關(guān)鍵術(shù)語,設(shè)計了一套關(guān)于氣象農(nóng)業(yè)的可視化服務(wù)系統(tǒng);Quillon H[21]提出一個本體概念集成模型,用來整合水資源信息;Hoill J[22]等設(shè)計一個基于本體驅(qū)動的氣象災(zāi)害服務(wù)模型,可以對氣象災(zāi)害進行快速反應(yīng),輔助決策。在國內(nèi),何險鋒等[23]提出了一種基于W3C標(biāo)準(zhǔn)的氣象災(zāi)害本體化設(shè)計方法,以一階謂詞將氣象災(zāi)害表達為基于氣象要素的邏輯判斷,并應(yīng)用于本體化設(shè)計中,以此建立起氣象災(zāi)害分類樹、等價公理、對象屬性集合和數(shù)據(jù)屬性集合,最終構(gòu)建得到氣象災(zāi)害本體知識庫;羅煒等[24]在歸納氣象數(shù)據(jù)集特征的基礎(chǔ)上,運用面向?qū)ο蟮姆椒▽庀髷?shù)據(jù)集元數(shù)據(jù)進行對象化,提出了包括元數(shù)據(jù)類、數(shù)據(jù)集標(biāo)識信息類等10個元數(shù)據(jù)類和表示元數(shù)據(jù)元素域的代碼表類的構(gòu)建方法,并構(gòu)建了元數(shù)據(jù)本體。綜合來看,目前氣象領(lǐng)域僅有的本體構(gòu)建方法大多依賴于專家經(jīng)驗分析,主觀因素影響較大,數(shù)據(jù)量較大時構(gòu)建效率低下。
基于此,本文選取概念格理論作為研究的理論基礎(chǔ),以專業(yè)學(xué)術(shù)文獻作為領(lǐng)域術(shù)語來源,運用FCA深入挖掘氣象災(zāi)害領(lǐng)域概念之間的層次關(guān)系,提出氣象災(zāi)害領(lǐng)域本體構(gòu)建的技術(shù)方案,促進氣象工作人員對氣象災(zāi)害進行有效的組織和管理,實現(xiàn)氣象災(zāi)害數(shù)據(jù)的融合共享。
2構(gòu)建流程
本文將FCA理念引入氣象災(zāi)害領(lǐng)域,在沒有結(jié)構(gòu)化主題詞表的情況下,借助專業(yè)學(xué)術(shù)論文建立中英文氣象災(zāi)害專業(yè)術(shù)語之間的概念層次關(guān)系,并進行比較,在此基礎(chǔ)上實現(xiàn)本體構(gòu)建和可視化展示,構(gòu)建過程和實現(xiàn)方法如圖1所示。具體包括以下3個步驟:
1)數(shù)據(jù)預(yù)處理。首先從學(xué)術(shù)論文文檔中抽取標(biāo)題、摘要、關(guān)鍵詞作為領(lǐng)域?qū)I(yè)術(shù)語的候選集合,然后利用分詞技術(shù)找出領(lǐng)域核心詞匯,并根據(jù)詞匯的出現(xiàn)頻次篩選領(lǐng)域?qū)I(yè)術(shù)語。
2)形式概念分析。將領(lǐng)域?qū)I(yè)術(shù)語看作屬性集,學(xué)術(shù)論文文檔看作對象集,建立“文檔×術(shù)語矩陣”,用形式概念描述領(lǐng)域背景知識,并利用概念格算法將形式化背景轉(zhuǎn)換成概念格,根據(jù)可視化的概念格模型抽取術(shù)語之間的層次和屬性關(guān)系。
3)本體構(gòu)建。利用OWL標(biāo)準(zhǔn)化語言描述術(shù)語之間的層次和屬性關(guān)系,從而建立氣象災(zāi)害領(lǐng)域本體,并通過GATE Developer進行語義標(biāo)注驗證本體的可用性。圖1氣象災(zāi)害領(lǐng)域本體構(gòu)建流程
21數(shù)據(jù)預(yù)處理
本文以“氣象災(zāi)害”為主題詞,在CNKI數(shù)據(jù)庫中檢索獲取核心期刊論文1 221篇,經(jīng)過篩選保留1 218篇;以“Meteorological Disaster”為主題詞,在Web of Science數(shù)據(jù)庫中檢索獲取論文365篇。抽取論文的標(biāo)題、摘要和關(guān)鍵詞作為領(lǐng)域術(shù)語候選集合。
英文領(lǐng)域術(shù)語抽取的傳統(tǒng)做法是對文檔分詞,去除停用詞和空格后,計算術(shù)語的TF-IDF值作為術(shù)語在文檔中的權(quán)重,繼而根據(jù)權(quán)重閾值進行篩選[25]。而在中文領(lǐng)域術(shù)語抽取過程中,由于中文領(lǐng)域核心詞匯通常是較長的短語,基于TF-IDF的權(quán)重篩選方法并不適用,因此本文使用中科院ICTCLAS 2016分詞系統(tǒng)對論文文檔進行分詞處理[26],在此基礎(chǔ)上直接對詞頻進行統(tǒng)計。由于不同作者的寫作風(fēng)格、用詞習(xí)慣及學(xué)術(shù)素養(yǎng)等方面存在差異,所以需要在詞頻統(tǒng)計過程中進行人工干預(yù),保證抽取的領(lǐng)域核心詞匯的一致性和準(zhǔn)確性。篩選后的部分領(lǐng)域術(shù)語如表1所示,對這些術(shù)語進行形式概念分析,并建立概念格。
22形式概念分析
FCA(Formal Concept Analysis)是一種用于數(shù)據(jù)分析、表1部分領(lǐng)域術(shù)語詞頻統(tǒng)計結(jié)果
術(shù)語(中文)頻次術(shù)語(英文)頻次氣象災(zāi)害2 466Disaster771農(nóng)業(yè)1 483Meteorological545干旱884Drought540氣候773Flood422天氣459Climate362低溫431Precipitation348減災(zāi)377Hazard234預(yù)報318Rainfall211高溫290Storm170凍害240Weather160暴雨237Forecast160旱災(zāi)215Monitor152洪澇193Warning145旱澇169Wind135冰雹163Agriculture132
知識管理、本體構(gòu)建等領(lǐng)域的數(shù)學(xué)方法,利用對象和屬性間的映射關(guān)系來描述領(lǐng)域的形式化背景,并從中抽取內(nèi)涵和外延的層次關(guān)系,構(gòu)建概念格[27-28]。
基于FCA的術(shù)語層次分析大致分為兩個步驟:
1)建立形式化背景。形式化背景可以定義為一個三元組:
F=(O,M,R)(1)
其中,O表示對象集合,M表示屬性集合,R表示對象和屬性間的映射關(guān)系。在本文中,形式化背景實質(zhì)上就是“文檔 術(shù)語”矩陣,可以定義為:
F=(Documents,Terms,I)(2)
其中,Documents表示文檔集合,Terms表示術(shù)語集合,I表示術(shù)語Ti是否在文檔Dj中出現(xiàn)或出現(xiàn)的頻次[29]。以中文術(shù)語為例,部分術(shù)語和文檔之間的關(guān)聯(lián)如表2所示,表中“1”表示文檔和術(shù)語存在關(guān)聯(lián),“0”不存在關(guān)聯(lián)。文檔集合Documents={D1,D2,D3,D4,D5,D6,D7,D8},術(shù)語集合Terms={氣象災(zāi)害,干旱,預(yù)警,氣溫,服務(wù),低溫,監(jiān)測}。表2氣象災(zāi)害領(lǐng)域的“文檔×術(shù)語”矩陣
DocumentTerm氣象
災(zāi)害干旱預(yù)警天氣服務(wù)低溫監(jiān)測D11100100D21110100D31000100D41000101D51001010D61111000D71001101D81001110
2)建立概念格。在建立概念格之前首先給出以下定義:
在形式化背景F=(O,M,R)中,存在惟一的偏序集合與之相對應(yīng)。根據(jù)集合所建立的概念格,每個節(jié)點稱之為概念,定義為C(X,Y),X∈O表示概念C(X,Y)的外延,Y∈M表示C(X,Y)的內(nèi)涵[30]。選取若干領(lǐng)域術(shù)語如表2所示,定義主題概念C1:
C1=({D1,D2,D6},{氣象災(zāi)害,干旱})
C1的外延為{D1,D2,D6},內(nèi)涵為{氣象災(zāi)害,干旱},該主題概念描述的是“氣象災(zāi)害”和“干旱”的相關(guān)內(nèi)容,文檔D1、D2、D6都是關(guān)于此主題的學(xué)術(shù)論文,即術(shù)語集合中的每個術(shù)語都出現(xiàn)在文檔集合中的每個文檔中,術(shù)語集合和文檔集合共同組成了一個主題概念,文檔集合稱為該主題概念的外延,術(shù)語集合稱為該主題概念的內(nèi)涵。
在此基礎(chǔ)上,運用德國達姆施塔特科技大學(xué)開發(fā)的形式概念分析工具ConExp[31]構(gòu)建概念格。ConExp可以利用概念格的形式表示一個有限形式背景的結(jié)構(gòu),并用Hasse圖表示。概念格的每一個節(jié)點相當(dāng)于形式概念,頂端元素的外延是具有這些屬性的對象的集合,底端元素的內(nèi)涵是這些對象所具有的屬性的集合。根據(jù)表2的“文檔 術(shù)語”矩陣所建立的概念格如圖2所示。
Hasse圖中圓形結(jié)點表示主題概念,圓形大小表示主題外延的個數(shù)。在層次結(jié)構(gòu)中,上層為父概念,下層為子概念。最頂層概念的屬性是所有對象均具有的屬性,因此外延最多;相反最底層概念包含所有屬性,因此外延最少。在表2中,“氣象災(zāi)害”是所有對象(文檔)均具有的屬性(術(shù)語),出現(xiàn)在所有文檔中,而具有所有屬性(術(shù)語)的文檔為空。
每個主題概念包含兩個部分,上半部分代表屬性,下半部分代表對象。在Hasse圖中,若屬性半圓為藍色,則表示有新增屬性鏈接到該節(jié)點上;若對象半圓為黑色,則表示有新增對象鏈接到該節(jié)點上。每個概念結(jié)點的屬性集合是該節(jié)點上層所有屬性的總和(繼承父概念屬性),對象集合是該節(jié)點下層所有對象的總和(覆蓋子概念外延)。例如圖中最左測“D4,監(jiān)測”節(jié)點,其屬性集合為{氣象災(zāi)害,服務(wù),監(jiān)測},對象集合為{D4,D7},組成一個完整的主題概念:C(X,Y)=({D4,D7},{氣象災(zāi)害,服務(wù),監(jiān)測})。
建立概念格的目的是描述概念之間的上下層關(guān)系,即分析下層概念如何通過新增屬性從上層概念衍生出來。如Hasse圖所示,新增屬性(術(shù)語)所在的對象(文檔)是以其為根節(jié)點的下子樹的外延(文檔)總和。例如圖2中的“D4,監(jiān)測”節(jié)點,新增“監(jiān)測”屬性,該屬性出現(xiàn)在文檔D4和D7中。該節(jié)點的父節(jié)點新增了“服務(wù)”屬性,其出現(xiàn)在文檔D4、D7以及文檔D1、D2、D3、D8中。在此情境下,包含術(shù)語“服務(wù)”的文檔集合是包含術(shù)語“監(jiān)測”文檔集合的超集,因此,“服務(wù)”是“監(jiān)測”的上位術(shù)語[32]。同理可得圖2中其它術(shù)語的上下層關(guān)系,如表3所示。表3術(shù)語的上下層關(guān)系
上位術(shù)語下位術(shù)語氣象災(zāi)害干旱氣象災(zāi)害氣溫,低溫服務(wù)監(jiān)測服務(wù)預(yù)警
從圖2和表3可以看出,基于FCA的概念格構(gòu)建可以清晰地反映出術(shù)語之間的上下層關(guān)系,從而為本體描述及可視化展示奠定基礎(chǔ)。
23本體OWL描述及可視化展示
在對領(lǐng)域術(shù)語進行形式概念分析的基礎(chǔ)上,利用W3C組織發(fā)布的OWL(Ontology Web Languages)[33]對主題概念和概念之間的邏輯關(guān)聯(lián)進行語義描述,從而便于計算機存儲和處理。
本文將每一個術(shù)語定義為一個類,將術(shù)語之間的上下層關(guān)系定義為類間的上下位關(guān)系。OWL中描述類上下位關(guān)系的標(biāo)簽是owl Class和rdfs:subclassOfrdf,前者用于定義一個類,后者用于定義當(dāng)前類的父類,編碼方式如公式(3)所示[34]:
#parentclass name/> 利用OWL描述術(shù)語({氣象災(zāi)害},{干旱}),({disaster},{flood})的上下層關(guān)聯(lián),如圖3所示。在術(shù)語量較大時,可通過程序自動生成類定義及編碼結(jié)構(gòu)。 本文采用Protégé[35]對OWL文件進行讀寫,并完成OWL文件到可視化圖形的轉(zhuǎn)化,并利用Ontograf[36]插件對本體概念進行篩選、檢索、定位和展示。 圖3術(shù)語上下層關(guān)系的OWL編碼 3結(jié)果分析 根據(jù)上述流程,對本文的數(shù)據(jù)進行處理和分析,獲取“氣象災(zāi)害”領(lǐng)域的專業(yè)術(shù)語,并對其進行形式化分析和本體構(gòu)建。 31數(shù)據(jù)預(yù)處理結(jié)果分析 在1 218篇關(guān)于“氣象災(zāi)害”的中文學(xué)術(shù)論文中,經(jīng)過詞頻統(tǒng)計和篩選獲取57個專業(yè)術(shù)語,共存在26 117個關(guān)聯(lián)。在365篇關(guān)于“Meteorological Disaster”的英文學(xué)術(shù)論文中,經(jīng)過詞頻統(tǒng)計和篩選獲取35個專業(yè)術(shù)語,共存在12 034個關(guān)聯(lián)。以〈文檔,術(shù)語,頻次〉三元組形式存儲以上關(guān)聯(lián),將此作為術(shù)語層次關(guān)系分析的依據(jù)。 32FCA結(jié)果分析 將中英文文檔術(shù)語三元組分別轉(zhuǎn)換為“文檔×術(shù)語”矩陣,生成氣象災(zāi)害領(lǐng)域的形式化背景。在中文矩陣FC=(Documents,Terms,I)中,Documents共有1 218個對象,Terms中共有57個對象,I中有26 117關(guān)聯(lián)。對其進行形式概念分析,生成主題概念6 697個。在英文矩陣FE=(Documents,Terms,I)中,Documents共有365個對象,Terms中共有35個對象,I中有12 034個關(guān)聯(lián)。對其進行形式概念分析,生成主題概念3 149個。由于主題概念數(shù)量較多,本文從橫向和縱向兩個維度對局部術(shù)語間上下層關(guān)聯(lián)進行分析。圖4中文術(shù)語的局部層次結(jié)構(gòu)圖 圖4、圖5分別從橫向維度上顯示了文檔中出現(xiàn)頻次最高的前15個中英文術(shù)語的層次結(jié)構(gòu)圖,在中文術(shù)語層次結(jié)構(gòu)圖中,生成653個主題概念,圖中僅截取了部分主題概念及其層次關(guān)系。由于文檔中均包含“氣象災(zāi)害”術(shù)語,圖5英文術(shù)語的局部層次結(jié)構(gòu)圖 因此該術(shù)語處于Hasse圖的頂端,其下有若干下位術(shù)語,主要的上下層關(guān)系包括: ①“氣象災(zāi)害”→“農(nóng)業(yè)”; ②“氣象災(zāi)害”→“冰雹”; ③“氣象災(zāi)害”→“旱澇”; ④“氣象災(zāi)害”→“氣候”; ⑤“氣象災(zāi)害”→“暴雨”→“洪澇”; ⑥“氣象災(zāi)害”→“干旱”→“旱災(zāi)”; ⑦“氣象災(zāi)害”→“天氣”→“高溫”; ⑧“氣象災(zāi)害”→“天氣”→“低溫”; ⑨“氣象災(zāi)害”→“減災(zāi)”→“預(yù)報”。 同理,在英文術(shù)語層次結(jié)構(gòu)圖中生成683個主題概念,主要的上下層關(guān)系包括: ①″meteorological disaster″→″storm″; ②″meteorological disaster″→″drought″; ③″meteorological disaster″→″agriculture″; ④″meteorological disaster″→″climate″; ⑤″meteorological disaster″→″hazard″; ⑥″meteorological disaster″→″wind″; ⑦″meteorological disaster″→″precipitation″→″rainfall″; ⑧″meteorological disaster″→″precipitation″→″flood″; ⑨″meteorological disaster″ →″nature″→″weather″; ⑩″meteorological disaster″→″monitor″→″forecast″; ″meteorological disaster″→″monitor″→″warning″。 圖6從縱向維度顯示了“氣象災(zāi)害”的下位術(shù)語“天氣”為根節(jié)點的主題概念格,共生成38個主題概念,主要的上下位關(guān)系包括: ①“天氣”→“高溫”; ②“天氣”→“監(jiān)測”→“防治”; ③“天氣”→“低溫”→“冷害”; ④“天氣”→“低溫”→“凍害”; ⑤“天氣”→“低溫”→“寒害”。 同理,可以以“氣象災(zāi)害”的任意一個下位術(shù)語為根節(jié)點,從縱向維度對其主題概念格進行分析。 33術(shù)語層次體系的本體描述及可視化展示 根據(jù)OWL定義的基本語法和標(biāo)簽,對本文獲取的“氣象災(zāi)害”領(lǐng)域中英文術(shù)語和上下層關(guān)系進行OWL編碼,構(gòu)建“氣象災(zāi)害”領(lǐng)域本體,如圖7所示。在此基礎(chǔ)上,利用Protégé軟件讀取OWL文件,并通過Ontograf插件進行類檢索和可視化展示。圖8展示了“Disaster”類的層次結(jié)構(gòu),左側(cè)以樹形結(jié)構(gòu)顯示了本體的所有類及其層次關(guān)系,可實現(xiàn)本體概念的順序瀏覽;右側(cè)上方的“Search”選項可以實現(xiàn)本體類的定位與檢索,右側(cè)下方以樹狀圖方式顯示出了與“Disaster”類相關(guān)的主題概念,連線中箭頭指向了子類方向。通過繪圖區(qū)上方的工具欄可對圖形進行調(diào)整,圖9采用spring圖對“Disaster”類的層次結(jié)構(gòu)進行了展示。
34本體驗證
本文采用英國Sheffield大學(xué)研發(fā)的GATE(General Architecture for Text Engineering)Developer[37]自然語言處理工具對構(gòu)建的本體進行測試和驗證,通過加載OWLIM Ontology、Ontology Tools等本體插件,可實現(xiàn)對氣象災(zāi)害(Meteorological Disaster)本體OWL文件的瀏覽和測試,如圖10所示。圖10GATE對“Meteorological Disaster”本體的瀏覽
利用GATE Developer對30篇“Meteorological Disaster”主題的網(wǎng)頁進行本體語義標(biāo)注和驗證,標(biāo)注信息以可視化的高亮方式顯現(xiàn)在文本資源中,標(biāo)注實例可以提高信息的查準(zhǔn)率和查全率。以“Hurricane Katrina”的維基百科網(wǎng)頁為例[38],其本體語義標(biāo)注如圖11所示,從而證明本文構(gòu)建的本體可以在GATE中被識別,語義標(biāo)注具有有效性和實用性。
4結(jié)語
本文以FCA為理論基礎(chǔ),以中英文學(xué)術(shù)論文為數(shù)據(jù)來源,提出一種以“文檔——術(shù)語”為核心的“氣象災(zāi)害”領(lǐng)域本體構(gòu)建方法。在抽取和篩選領(lǐng)域?qū)I(yè)術(shù)語的基礎(chǔ)上,建立“文檔——術(shù)語”形式化背景,進而采用FCA理論將形式化背景轉(zhuǎn)換為主題概念格,并分析領(lǐng)域術(shù)語之間的上下層關(guān)系,最后利用OWL對術(shù)語的上下層關(guān)系進行描述,圖11GATE對網(wǎng)頁的本體語義標(biāo)注
形成領(lǐng)域本體,為氣象災(zāi)害領(lǐng)域知識的語義檢索和可視化展示奠定了基礎(chǔ)。本研究得到的結(jié)論有以下幾點:
1)在缺乏外部知識庫和主題詞表的情景下,可以通過抽取學(xué)術(shù)論文的專業(yè)術(shù)語,并建立概念格來獲取領(lǐng)域主題概念間的層次關(guān)系;
2)相對于醫(yī)學(xué)等其它領(lǐng)域,氣象災(zāi)害術(shù)語層次關(guān)系的“縱向”深度較淺,但具有較寬的“橫向”廣度,這是由于氣象災(zāi)害領(lǐng)域的二級分類較多(如暴雨、干旱、臺風(fēng)等),每類主題的研究偏向于某一方面(如災(zāi)害評估、應(yīng)急預(yù)警、系統(tǒng)建模等),缺乏細致和深層次的挖掘;
3)通過比較發(fā)現(xiàn),氣象災(zāi)害領(lǐng)域的英文術(shù)語相對于中文術(shù)語數(shù)量偏少,但專業(yè)性更強,準(zhǔn)確度更高,因此信息的查準(zhǔn)率和查全率更高。
在未來的研究中,對下列問題可以作進一步的研究:
1)減少本體構(gòu)建的冗余。本文構(gòu)建的本體存在一定的交叉性和重復(fù)性,在未來的工作中需要對本體的領(lǐng)域和范圍進行界定,并通過本體間的映射完成主題的語義互聯(lián);
2)數(shù)據(jù)來源多樣化。本文選取學(xué)術(shù)論文作為術(shù)語來源,在今后的工作中可以將氣象災(zāi)害的網(wǎng)頁、新聞報道、統(tǒng)計數(shù)據(jù)作為術(shù)語的抽取對象;
3)選取二級分類領(lǐng)域進行本體構(gòu)建。可以對氣象災(zāi)害的某個子領(lǐng)域(如暴雨、臺風(fēng)、洪水等)進行術(shù)語層次關(guān)系分析和本體構(gòu)建,從而在縱向?qū)哟紊贤诰蛐g(shù)語層次關(guān)系的深度,進一步提升領(lǐng)域本體的實用性。
參考文獻
[1]Thomas R Gruber.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,5(2):199-220.
[2]Deng Z,Tang S,Zhang M,et al.Overview of Ontology[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2002,38(5):730-738.
[3]Gaihua Fu.FCA based ontology development for data integration[J].Information Processing and Management,2016,52(5):765-782.
[4]Farquhar A,F(xiàn)ikes R,Rice J.The Ontolingua server:A tool for collaborative ontology construction[J].Intl Journal of Human-Computer Studies,1997,46(6):707-727.
[5]Toward distributed use of large-scale ontologies[EB/OL].http:∥ksi.cpsc.ucalgary.ca/KAW/KAW96/swartout/Banff96final2.html,2016-08-01.
[6]Duineveld A,Stoter R,Weiden M,et al.Wonder tools?A comparative study of ontological engineering tools[J].Intl Journal of Human-Computer Studies,2000,52(6):1111-1133.
[7]杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報,2006,17(9):1837-1847.
[8]Navigli R,Velardi P,Gangemi A.Ontology learning and its application to automated terminology translation[J].IEEE Intelligent Systems,2003,18(1):22-31.
[9]胡可云,陸玉昌.概念格及其應(yīng)用進展[J].清華大學(xué)學(xué)報:自然科學(xué)版,2000,40(9):77-81.
[10]Haav H M.A Semi-Automatic Method to Ontology Design by Using FCA[C]∥Proceedings of the 2nd International Workshop on Concept Lattices and their Application,2004:13-24.
[11]Cimiano P,Hotho A,Stumme G,et al.Conceptual Knowledge Processing with Formal Concept Analysis and Ontologies[C]∥Proceedings of the 17th International Conference on Industrial and Engineering Application of Artificial Intelligence and Expert System,2004:189-207.
[12]Nanda J,Simpson T W,Kumara S R,et al.A Methodology for Product Family Ontology Development Using Formal Concept Analysis and Web Ontology Language[J].Journal of Computing and Information Science in Engineering,2006,6(2):103-113.
[13]Juan Cigarrán Recuero,Joaquín Gayoso Cabada,Miguel Rodríguez Artacho,et al.Assessing semantic annotation activities with formal concept analysis[J].Expert Systems with Applications,2014,41(11):5495-5508.
[14]Balasubramaniam K.Hybrid Fuzzy-Ontology Design using FCA based Clustering for Information Retrieval in Semantic Web[C]∥Peer-review under responsibility of scientific committee of 2nd International Symposium on Big Data and Cloud Computing,2015:135-142.
[15]牟冬梅,張艷俠,黃麗麗,等.基于SNOMED CT和FCA的醫(yī)學(xué)領(lǐng)域本體構(gòu)建研究[J].情報學(xué)報,2013,32(6):653-662.
[16]畢強,騰廣青.基于概念格的多本體協(xié)同知識地圖構(gòu)建研究[J].情報學(xué)報,2012,31(10):1018-1025.
[17]王昊,朱惠,鄧三鴻.基于形式概念分析的學(xué)科術(shù)語層次關(guān)系構(gòu)建研究[J].情報學(xué)報,2015,34(6):616-627.
[18]滕廣青,畢強.基于概念格的異構(gòu)資源領(lǐng)域本體構(gòu)建研究[J].現(xiàn)代圖書情報技術(shù),2011,(5):7-12.
[19]陸佳瑩,袁勤儉,黃奇,等.基于概念格理論的產(chǎn)品領(lǐng)域本體構(gòu)建研究[J].現(xiàn)代圖書情報技術(shù),2016,(5):38-46.
[20]Joel L C,Mara A,Claiton M S.Visual interpretation of events in petroleum exploration:An approach supported by well-founded ontologies[J].Expert Systems with Applications,2015,42(5):2749-2763.
[21]Quillon H.Using a Model MAP to prepare hydro-meteorological models for generic use[J].Environmental Modeling & Software,2015,73(8):260-271.
[22]Hoill J,Kyungyong C.Ontology-driven slope modeling for disaster management service[J].Cluster Computing,2015,18(2):677-692.
[23]何險峰,張祥鋒,鄭利娟,等.氣象災(zāi)害本體設(shè)計[J].氣象科技,2012,40(6):1007-1013.
[24]羅煒,胡友彬,孔華武.氣象數(shù)據(jù)集元數(shù)據(jù)的本體推理研究與實現(xiàn)[J].電腦與信息技術(shù),2012,20(2):4-8.
[25]Qiming Luo,Enhong Chen,Hui Xiong.A semantic term weighting scheme for text categorization[J].Expert Systems with Applications,2011,38(10):12708-12716.
[26]NLPIR漢語分詞系統(tǒng)[EB/OL].http:∥ictclas.nlpir.org/newsDetail?DocId=387,2016-08-04.
[27]Wille R.Restructuring lattice theory:an approach based on hierarchies of concepts[C]∥Proceedings of the NANO Advanced Study Institute,Banff,Canada,1982:445-470.
[28]Xiangping Kang,Duoqian Miao.A study on information granularity in formal concept analysis based on concept-bases[J].Knowledge-Based Systems,2016,105(8):147-159.
[29]Poelmans J,Elzinga P,Viaene S,et al.Text mining scientific papers:a survey on FCA-based information retrieval research[C]∥Proceedings of 12th Industrial Conference,2012:273-287.
[30]Chinho Lin,Ju Chuan Wu,Hua Ling Tsai.A hybrid approach to knowledge flow[J].Industrial Management & Data Systems,2013,113(5):628-646.
[31]Concept Explorer[EB/OL].http:∥sourceforge.net/projects/conexp/,2016-08-05.
[32]Rehman Z,Kifor C V.An Ontology to support semantic management of FMEA knowledge[J].International Journal of Computers Communications & Control,2016,11(4):507-521.
[33]OWL[EB/OL].http:∥www.w3.org/TR/owl-features/,2016-08-08.
[34]Nguyen T H,Grundy J C,Almorsy M.Ontology-based automated support for goal-use case model analysis[J].Software Quality Journal,2016,24(3):635-673.
[35]Protégé[EB/OL].http:∥Protege.stanford.edu,2016-08-08.
[36]Falconer S.Ontograf[EB/OL].http:∥protegewiki.stanford.edu/wiki/Onto-graf,2016-08-08.
[37]GATE Developer[EB/OL].https:∥gate.ac.uk/family/developer.html,2016-08-16.
[38]Hurricane Katrina[EB/OL].https:∥en.wikipedia.org/wiki/HurricaneKatrina,2016-08-16.