謝 榕,羅知微,王雨晨,陳 文
(1.武漢大學 國際軟件學院,湖北 武漢 430079; 2.華中科技大學 自動化學院,湖北 武漢 430074;3.上海航天控制技術研究所 上海市空間智能控制技術重點實驗室,上海 201109)
遙感衛(wèi)星特定領域大規(guī)模知識圖譜構(gòu)建關鍵技術
謝 榕1,羅知微2,王雨晨1,陳 文3
(1.武漢大學 國際軟件學院,湖北 武漢 430079; 2.華中科技大學 自動化學院,湖北 武漢 430074;3.上海航天控制技術研究所 上海市空間智能控制技術重點實驗室,上海 201109)
針對遙感衛(wèi)星數(shù)據(jù)應用中的信息整合、系統(tǒng)集成等問題,提出建立遙感衛(wèi)星特定領域大規(guī)模知識圖譜的總體框架及其關鍵技術。在該技術框架中,構(gòu)建基于國際衛(wèi)星標準的標準化衛(wèi)星數(shù)據(jù)集成元數(shù)據(jù)模型,并通過語義計算、語義映射與知識進化等手段進一步建立完備一致的遙感知識空間語義模型,在此基礎上形成遙感衛(wèi)星特定領域知識圖譜及其應用模式。研究成果為海量衛(wèi)星數(shù)據(jù)應用服務的語義集成與互操作、共享平臺建設提供新思路、新方法與新技術。
對地觀測數(shù)據(jù);元數(shù)據(jù)模型;語義模型;知識圖譜;語義;FCA-概念格;機器學習;應用模式
在經(jīng)濟全球化和信息網(wǎng)絡化發(fā)展背景下,快速獲取、高效處理和有效應用衛(wèi)星對地觀測大數(shù)據(jù)成為世界各國的共同需求[1]。遍布全球的多個衛(wèi)星數(shù)據(jù)觀測中心積聚了巨大的海量數(shù)據(jù),它們高度異構(gòu)、分散自治和動態(tài)更新。另一方面,衛(wèi)星應用信息系統(tǒng)的建設涉及到眾多領域、眾多部門,目前這些系統(tǒng)的子系統(tǒng)、組件和服務被獨立地開發(fā)和部署,協(xié)調(diào)困難,難以實現(xiàn)衛(wèi)星遙感信息資源在各領域和各部門之間的交流與共享[2]。因此,面臨衛(wèi)星對地面遙感所形成的地球空間海量信息流,如何提供一個高效的數(shù)據(jù)管理與信息整合的途徑、方法或技術,在保留衛(wèi)星應用各領域、各部門原有子系統(tǒng)、組件和服務的基礎上,利用數(shù)據(jù)集成和語義技術,對衛(wèi)星遙感數(shù)據(jù)、地面觀測數(shù)據(jù)與仿真模型等多源、異構(gòu)數(shù)據(jù)以及不同平臺、不同歸檔系統(tǒng)等數(shù)據(jù)進行集成,支持這些大規(guī)模遙感數(shù)據(jù)的邏輯關聯(lián)表達、信息語義集成、協(xié)同綜合管理,最終實現(xiàn)海量衛(wèi)星數(shù)據(jù)應用服務的語義集成與互操作、共享平臺建設,成為迫切需要和亟待解決的難題[3-4]。
研究學者提出了多種異構(gòu)數(shù)據(jù)集成方法[5-10],如聯(lián)邦數(shù)據(jù)庫、LINQ、中間件、數(shù)據(jù)倉庫、Web Service和本體等。其中,基于本體的異構(gòu)數(shù)據(jù)集成方法是近幾年用得比較多的一種方法。該方法利用本體的規(guī)范化來消除各個數(shù)據(jù)源之間的異構(gòu)性,并進行本體的知識推理來提高數(shù)據(jù)查詢的準確率?;诒倔w的異構(gòu)數(shù)據(jù)集成方法有3種思路:單一全局本體集成、多局部本體集成和混合本體集成。單一本體集成對多個異構(gòu)數(shù)據(jù)源建立一個全局本體進行統(tǒng)一描述,并基于全局本體實現(xiàn)對多數(shù)據(jù)源的訪問。這種方法較適合于來自同一個領域的多個數(shù)據(jù)源,通過多個數(shù)據(jù)源共同理解的概念來構(gòu)建本體;多局部本體集成對每個異構(gòu)數(shù)據(jù)源都建立一個局部本體,而不用建立全局本體,該方法適用于動態(tài)性較強的多個數(shù)據(jù)源;混合本體集成對每個數(shù)據(jù)源建立一個局部本體,然后再建立一個全局本體,這種方法的擴展性、自治性都較好。歸結(jié)起來,基于本體的方法數(shù)據(jù)查準率較高,但本體的構(gòu)建與映射過程相對比較復雜[10]。從現(xiàn)階段遙感數(shù)據(jù)集成與共享的技術水平來看,一些技術手段仍停留在傳統(tǒng)的領域本體建模方法上。一方面缺乏完備的語義融合機制以及缺乏對語義數(shù)據(jù)的自動更新,另一方面本體構(gòu)建、本體更新的代價也很大。當前,語義技術和知識圖譜[11-13]引起工業(yè)界和學術界的高度關注和研究熱潮,正成為實現(xiàn)大規(guī)模異構(gòu)信息語義集成與互操作的新興手段和途徑。然而關于領域知識圖譜的概念尚沒有形成,其研究還是一片空白,僅限于圖書館知識圖譜[14]、地學知識圖譜[15]和微博知識圖譜[16]的研究探討,基于語義技術和知識圖譜的信息集成技術與方法尚未在遙感數(shù)據(jù)應用領域中獲得廣泛的研究與開展。
本文提出為衛(wèi)星應用部門建立遙感衛(wèi)星特定領域大規(guī)模知識圖譜的技術架構(gòu)。建立一種基于FCA-概念格的知識語義模型,將概念格與傳統(tǒng)本體進行互補融合,通過異構(gòu)數(shù)據(jù)整合、概念格表達和語義映射等手段實現(xiàn)概念構(gòu)建與語義映射的自動化過程。通過主動學習結(jié)合半監(jiān)督學習的知識進化方法與算法,解決現(xiàn)有關聯(lián)規(guī)則、機器學習等方法在知識更新時需要人工干預、效率低的問題,實現(xiàn)及時發(fā)現(xiàn)新知識并動態(tài)更新知識庫。采用混合描述邏輯的知識庫融合方法,并通過全局概念格構(gòu)建、基于規(guī)則的約束關系生成、基于公理的知識一致性分析,解決遙感領域數(shù)據(jù)應用服務的語義集成與互操作問題。
圖1 遙感衛(wèi)星特定領域大規(guī)模知識圖譜構(gòu)建總體技術框架
充分利用國際標準組織ISO TC/211[17-20]提出的一系列衛(wèi)星數(shù)據(jù)國際標準計劃,并對這些標準進行集成與擴展,構(gòu)建標準化衛(wèi)星數(shù)據(jù)集成通用元數(shù)據(jù)模型[21],對衛(wèi)星圖像、地面觀測數(shù)據(jù)與模擬模型結(jié)果等異構(gòu)數(shù)據(jù)以及各個部門、多個平臺、不同數(shù)據(jù)歸檔系統(tǒng)之間的數(shù)據(jù)進行有效集成,通過建立共同的標準描述全球分布衛(wèi)星遙感數(shù)據(jù),確保衛(wèi)星數(shù)據(jù)與服務的兼容性和互用性,使得所有的衛(wèi)星遙感數(shù)據(jù)都可以實現(xiàn)規(guī)范化共享與應用。面向衛(wèi)星對地觀測數(shù)據(jù)集成及其應用系統(tǒng)的通用元數(shù)據(jù)模型如圖2所示,包括核心元數(shù)據(jù)(圖2(a))、擴展元數(shù)據(jù)(圖2(b))和特殊元數(shù)據(jù)(圖2(c))。
圖2 遙感衛(wèi)星元數(shù)據(jù)UML模型
語義表達模型是對地觀測數(shù)據(jù)綜合集成的基礎。語義表達建模必須面對以下三大困難:
① 數(shù)據(jù)存儲層數(shù)據(jù)存儲形式按照結(jié)構(gòu)化程度主要有3種,即結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化,存在典型的異構(gòu)性,因此需要解決多源異構(gòu)數(shù)據(jù)的整合。
② 在當前語義表達研究中,本體占有非常重要地位[22]。但各種領域本體的構(gòu)建方法主要還是依賴于專家智能和手工完成,所建立的領域本體易受領域?qū)<抑饔^因素影響且構(gòu)建效率低下,數(shù)據(jù)集成需要更客觀高效的能夠由計算機輔助完成的半自動化乃至自動化的本體構(gòu)建方法。
③ 概念之間的語義映射是建立語義關聯(lián)的重要依據(jù)。但目前映射存在相似度計算方法不完善、計算量過高、概念相似度計算過于片面等問題,不能很好地反映語義相似度的相關因素。
本文將概念格與本體互補融合,采用FCA-概念格相關理論與技術[23]來解決這些問題。通過概念格及其語義映射進行統(tǒng)一知識語義表達與建模。利用Protégé工具遙感衛(wèi)星,形成遙感衛(wèi)星語義模型如圖3所示,包括概念格、屬性和關聯(lián)等組成部分。
圖3 遙感衛(wèi)星Protégé語義模型
在該模型中,從語義角度解決異構(gòu),采用BP神經(jīng)網(wǎng)絡算法解決語義集成中的屬性匹配問題。在屬性匹配的基礎上,采用基于屬性信息熵和互信息確定屬性權重比的方法來分配各個屬性的權值,計算2個實體在各個屬性值上的相似度并結(jié)合權重得到這2個實體的相似度,從而計算出實體的匹配結(jié)果。
(5) 血小板GPⅡb/Ⅲa類受體拮抗劑國內(nèi)目前使用的GPI主要為替羅非班。應考慮在PCI過程中使用GPI,尤其是高危(cTn升高、合并糖尿病等)或血栓并發(fā)癥患者(Ⅱa,C)。不建議早期常規(guī)使用GPI(Ⅲ,A)。
在現(xiàn)有本體映射方法的基礎上設計一個語義映射層的自動構(gòu)建算法[24],算法的主體部分為概念語義相似度的計算和基于貝葉斯網(wǎng)絡的推理映射。其中,概念語義相似度是算法的基礎與核心,其準確度直接影響映射算法最終的效果。① 利用概念節(jié)點在本體模型中的結(jié)構(gòu)信息,定位概念詞在WordNet中的詞義。然后計算2個擁有具體詞義的概念的語義距離,從而得到概念的語義相似度。② 利用貝葉斯網(wǎng)絡基于已有映射結(jié)果發(fā)現(xiàn)新的映射。
目前本體技術用的比較普遍,可以解決不同本體間的知識共享和重用問題。但本體技術的運用大多由人工手動來完成,不僅過程繁雜,而且容易出錯,極大影響本體的自動化程度和準確性。機器學習通過計算機模擬實現(xiàn)人類學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能,因此可成為對地觀測數(shù)據(jù)集成的語義映射與知識進化的有效手段。
機器學習有監(jiān)督學習、非監(jiān)督學習以及半監(jiān)督學習3類方法。非監(jiān)督學習直接對輸入樣本通過聚類辦法進行建模,學習效果不高。有監(jiān)督機器學習方法受限于標注語料的規(guī)模,在小規(guī)模標注樣本中難以獲取較高性能。因此,采用半監(jiān)督學習方法,并結(jié)合訓練特點,運用基于主動學習的樣本優(yōu)化策略,即整合主動學習與半監(jiān)督學習的辦法,可以在小規(guī)模標注樣本環(huán)境中取得良好學習效果。
根據(jù)Web數(shù)據(jù)中領域若干種子術語,計算詞語與種子詞語的相對共現(xiàn)率,初步獲得候選術語集合,篩選一定閾值范圍內(nèi)的候選術語集合,計算值并排序,獲取結(jié)果中一定閾值范圍內(nèi)的候選術語集合作為最終結(jié)果。領域復合術語提取時,采用基于位置上的方法和基于詞性上的方法,統(tǒng)計和領域基本術語常常一前一后組合出現(xiàn)的詞語的頻率,并過濾其中詞性不符合要求的結(jié)果,從而得到領域復合術語[25-26]。
基于以上半監(jiān)督學習策略和主動學習策略,對半監(jiān)督學習和主動學習進行整合。將半監(jiān)督學習的訓練過程分成2個部分:半監(jiān)督學習訓練和半監(jiān)督學習迭代訓練。
① 從待標注樣本集中選取任意樣本進行標注;
② 訓練半監(jiān)督學習達到的分類器并使用該分類待分類樣本集;
③ 使用主動學習策略從待分類樣本集中抽取所有確定性樣本,與前面取得標注樣本組成訓練集訓練;
④ 訓練得到的半監(jiān)督學習對剩下的待標注集與全部待分類集重新分類,然后調(diào)用主動學習策略構(gòu)建新的訓練集,反復迭代直至指定步結(jié)束為止。
在遙感領域知識圖譜建立中,除了定義語義層外,還需要定義應用模式層,需要解決以下兩大問題:
① 實際應用中,遙感各個領域內(nèi)所構(gòu)建的知識庫是相互獨立的,因此需要對不同領域的知識庫進行融合,本文采用混合描述邏輯的知識庫融合方法來建立全局概念格。
② 語義表達模型包括了概念、概念層次、屬性、屬性值類型、關系、關系定義域概念集以及關系值域概念集,但還需要添加規(guī)則或公理來表示模式層更復雜的約束關系。
全局概念格對應知識庫的邏輯結(jié)構(gòu),從局部概念格轉(zhuǎn)化為全局概念格,需要建立二者之間相關的映射信息,通過全局概念格到局部概念格的映射完成領域知識庫的語義集建立。具體地,提取局部概念格中的概念,采用語義映射方法進行相似概念匹配,在全局概念表中補充局部存在而全局不存在的概念,并根據(jù)匹配映射進行屬性相似匹配以及全局概念格概念表的屬性修正,建立局部概念格到全局概念格的映射集。
建立全局概念格和混合知識庫后,從類內(nèi)公理和類間公理2個方面建立一致性公理庫。
① 類內(nèi)公理將概念格類的值域限定在一個合理范圍內(nèi),同時對類內(nèi)屬性、關系進行限定。
② 類間公理定義類屬性之間的公理表示一個類的屬性對另一個類的屬性的約束,同時對類與類之間的內(nèi)在聯(lián)系進行約束?;诮⒌墓韼?,可對知識進行一致性檢查,包括知識完備性、值錯誤和知識矛盾等方面。還可以從已知概念出發(fā),由公理庫推出未知概念的知識;從概念的已知屬性出發(fā),推出概念的未知屬性知識。
在構(gòu)建遙感衛(wèi)星元數(shù)據(jù)模型的基礎上,進一步形成遙感衛(wèi)星語義模型,并最終建立遙感知識圖譜。遙感衛(wèi)星知識圖譜雛形如圖4所示。
圖4 遙感衛(wèi)星知識圖譜雛形
本文提出建立遙感衛(wèi)星特定領域大規(guī)模知識圖譜的技術框架。初步研究工作包括以下3個方面:
① 將概念格與傳統(tǒng)本體方法互補融合,建立統(tǒng)一的知識語義表達模型,解決多源異構(gòu)數(shù)據(jù)整合問題,并能克服領域本體易受領域?qū)<抑饔^因素影響且構(gòu)建效率低下的不足,解決當前語義映射方法不完善、計算量過高以及概念相似度計算過于片面的問題,實現(xiàn)概念構(gòu)建與語義映射的自動化過程;
② 針對現(xiàn)有關聯(lián)規(guī)則、監(jiān)督學習等數(shù)據(jù)挖掘和機器學習方法在知識更新時需要人工干預、效率低等局限性,將主動學習與半監(jiān)督學習進行有效結(jié)合,在不需要人工干預的條件下對領域知識自動學習,實現(xiàn)及時發(fā)現(xiàn)新知識并對領域知識庫進行自動更新;
③ 針對遙感領域內(nèi)獨立知識庫進行異構(gòu)信息融合的若干難點問題的解決方案,并通過全局概念格構(gòu)建、基于規(guī)則的約束關系生成、基于公理的知識一致性分析,構(gòu)建遙感知識圖譜應用模式,徹底解決對地觀測數(shù)據(jù)綜合集成應用的語義集成與互操作問題。研究成果為海量衛(wèi)星數(shù)據(jù)應用服務的語義集成與互操作、共享平臺建設提供新思路、新方法與新技術。
[1] CRAGLIA M,BIE K,PESARESI M,et al.Digital Earth 2020:Towards the Vision for the Next Decade[J].International Journal Digital Earth,2012(5):4-21.
[2] 謝 榕,劉亞文,李翔翔.大數(shù)據(jù)環(huán)境下衛(wèi)星對地觀測數(shù)據(jù)集成系統(tǒng)的關鍵技術[J].地球科學進展,2015,30(8):855-862.
[3] 李德仁.地球空間信息學的機遇[J].武漢大學學報(信息科學版),2004,29(9):753-756.
[4] 李德仁,沈 欣.論智能化對地觀測系統(tǒng)[J].測繪科學,2005,30(4):9-11.
[5] 鄒衛(wèi)國,郭建勝,劉建軍,等.基于聯(lián)邦數(shù)據(jù)庫的數(shù)據(jù)集成體系研究[J].中國管理信息化,2009,12(13):86-88.
[6] WANG Y,ZHANG X.The Research of Multi-source Heterogeneous Data Integration Based on LINQ[C]∥ International Conference on Computer Science and Electronics Engineering,IEEE,2012:147-150.
[7] 張德文,徐孟春,馬 慧.基于多中間件的數(shù)據(jù)集成方案[J].計算機工程與設計,2007,28(21):5 081-5 107.
[8] 張蒲生,蘇運霖.基于政務數(shù)據(jù)倉庫的數(shù)據(jù)集成及關鍵技術[J].計算機工程,2003,29(9):79-183.
[9] HAN J,TONG J,LI X.An Adaptive Heterogeneous Database Integration Framework based on Web Service Composition Techniques[C]∥IEEE International Conference on Granular Computing,IEEE,2008:265-268.
[10] KAVITHA C,SADASIVAM G S,SHENOY S N.Ontology Based Semantic Integration of Heterogeneous Databases[J].European Journal of Scientific Research,2011,64(1):115-122.
[11] NewScientist.Why Google Will Soon Answer Your Questions Directly[EB/OL].2012-05-30,http:∥www.newscientist.com/article/mg21428676.400-why-google-will-soon-answer-your-questions-directly.html#.VP-zK-Gb8th.[12] AMIT S.Introducing the Knowledge Graph:Things,Not Strings[EB/OL].2012-05-24,http:∥googleblog.Blogspot.co.uk /2012/05/introducing-knowledge-graph-things-not.html.
[13] 王昊奮.大規(guī)模知識圖譜技術[J].中國計算機學會通訊,2014,10(4):64-68.
[14] 冉從敬,陳 一,李 莎.基于知識圖譜的國外數(shù)字資源長期保存可視化研究[J].信息資源管理學報,2014(2):106-113.
[15] 許 珺,裴 韜,姚永慧.地學知識圖譜的定義、內(nèi)涵和表達方式的探討[J].地球信息科學學報,2010,12(4):496-509.
[16] 杜亞軍,吳 越.微博知識圖譜構(gòu)建方法研究[J].西華大學學報(自然科學版),2015,34(1):27-35.
[17] ISO/TC 211.ISO 19115.Geographic Information-Metadata[S],2002.
[18] ISO/TC 211.ISO 19139.Geographic Information-Metadata-XML Schema Implementation[S],2004.
[19] ISO/TC 211.ISO 19115.Geographic Information-Metadata-Part 2:Extensions for Imagery and Gridded Data[S],2005.[20] ISO/TC 211.ISO 19130.Geographic Information-Sensor Data Model for Imagery and Gridded Data[S],2005.
[21] XIE R,SHIBASAKI R.Imagery Metadata Development based on ISO/TC 211 Standards[J].Data Science Journal,2007,6(3):28-45.
[22] LIU L,ZHANG P.Modeling Ontology Evolution with SetPi[J].Information Sciences,2014,255(10):155-169.
[24] 任 鴿.語義映射層自動構(gòu)建算法[D].武漢:武漢大學,2016.
[25] LUO Z,WANG H.Extract Domain Terminologies for Knowledge Graph Construction Using Domain Feature Vectors[C]∥2nd IEEE International Conference on Big Data Analysis (ICBDA 2017),2017:89-93.
[26] 葉澤韜.基于傳統(tǒng)領域術語提取方法的改進[D].武漢:武漢大學,2016.
謝 榕 女,(1968—),武漢大學國際軟件學院教授,博士生導師。主要研究方向:遙感、語義建模。
主持并參與教育部留學回國基金、湖北省自然科學基金、國家863計劃、國家自然科學基金重點、中央高?;究蒲袠I(yè)務費專項、蘇州科技局國際合作、西門子公司國際合作、中國航天創(chuàng)新基金、上海航天創(chuàng)新基金、重點實驗室開放基金等項目。曾擔任CEOS WGISS成員以及ISO/TC211第6工作組EC成員、國際會議的PC Member和Session Chair以及Journal of Artificial Societies and Social Simulation、計算機科學、武漢大學學報等學術期刊審稿人。獲軟件著作權6項,發(fā)表研究論文50多篇,多篇論文被SCI、EI收錄。
王雨晨 男,(1991—),博士研究生。主要研究方向:遙感、語義建模。
Key Techniques for Establishing Domain Specific Large Scale Knowledge Graph of Remote Sensing Satellite
XIE Rong1,LUO Zhi-wei2,WANG Yu-chen1,CHEN Wen3
(1.InternationalSchoolofSoftware,WuhanUniversity,WuhanHubei430079,China; 2.SchoolofAutomation,HuazhongUniversityofScienceandTechnology,WuhanHubei430074,China; 3.ShanghaiKeyLaboratoryofAerospaceIntelligentControlTechnology,ShanghaiAerospaceControlTechnologyInstitute,Shanghai201109,China)
To solve the issues of information aggregation and system integration etc.in the application fields of remote sensing,the paper proposes an overall framework and its key techniques for establishing large scale domain specific knowledge graph of remote sensing satellite.In this framework,standardized satellite data integration metadata model is constructed based on international satellite standards,then a consistent remote sensing spatial semantic model is built through the means of semantic computing,semantic mapping and knowledge evolution,and the remote sensing satellite specific domain knowledge graph and its application schema are further formed.The results can provide a novel idea,method and technology for semantic integration and interoperability as well as sharing platform construction of massive satellite data services.
earth observation data;metadata model;semantic model;knowledge graph;semantics;FCA-concept lattice;machine learning;application schema
10.3969/j.issn.1003-3106.2017.04.01
謝 榕,羅知微,王雨晨,等.遙感衛(wèi)星特定領域大規(guī)模知識圖譜構(gòu)建關鍵技術[J].無線電工程,2017,47(4):1-6.
2017-01-03
上海航天科技創(chuàng)新基金資助項目(SAST2016082)。
P236
A
1003-3106(2017)04-0001-06