• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      水利綜合知識圖譜構建研究

      2021-09-09 02:39:06趙紅莉蔣云鐘毛文山
      水利學報 2021年8期
      關鍵詞:水網(wǎng)圖譜實體

      段 浩,韓 昆,趙紅莉,蔣云鐘,李 豪,毛文山

      (中國水利水電科學研究院,北京 100038)

      1 研究背景

      知識圖譜(Knowledge Graph)是一種通用語義知識形式化描述框架[1],Google 公司于2012年首次提出這一概念,用于提高信息資源的搜索能力。這項技術主要是利用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯(lián)系,為人們提供了一種高效地組織、管理和分析海量數(shù)據(jù)的方法[2],從而更加便捷地獲取知識。

      隨著社會服務智能化需求的提升,知識圖譜技術正得到快速發(fā)展,按知識圖譜的構建過程又可分為知識抽取、知識融合、知識應用等內(nèi)容。知識抽取是從海量數(shù)據(jù)中獲取有效信息的過程,包括對實體、關系及屬性的抽取,其中實體抽取的方法主要包括基于規(guī)則[3]、機器學習和面向海量數(shù)據(jù)的抽取;關系的抽取包括基于模板、監(jiān)督學習和無監(jiān)督學習的抽取方法[4]等;知識融合主要是對從多源數(shù)據(jù)抽取的知識進行處理,可包括實體的融合及跨域圖譜的融合[5-6]等。

      與此同時,面向特定領域的知識圖譜應用逐步發(fā)展,被用來組織、分析和挖掘領域內(nèi)的知識。起初,學者們多使用通用知識圖譜技術進行專業(yè)文獻的計量學分析[7-9],以獲得相關專業(yè)知識結構框架及研究脈絡,分析研究熱點及未來發(fā)展方向。隨后多個專業(yè)領域開展了專業(yè)知識圖譜構建技術與應用的研究,如余建明等[10]、劉津等[11]和李智星等[12]運用知識圖譜技術研究了電力領域專業(yè)術語關系以及電網(wǎng)企業(yè)運營指標關系,提出了電力行業(yè)的面向智能調(diào)控領域知識圖譜構建方法;吳雪峰等[13]構建了煤礦巷道支護領域知識圖譜,為巷道的智能化管理提供支撐;車金立等[14]則將知識圖譜技術引入到軍事裝備領域,支撐實現(xiàn)該領域的知識問答;沈柳等[1]、奧德瑪?shù)龋?5]以及孫鄭煜等[16]在醫(yī)藥領域進行了知識圖譜技術應用的嘗試;昝紅英等[17]通過構建中文醫(yī)學知識圖譜研究了機器標注準確率較低的問題。這些研究進一步顯示出知識圖譜在支撐行業(yè)智能化管理方面的優(yōu)越性,推動了知識圖譜在各個行業(yè)的快速發(fā)展。

      水利知識涵蓋范圍廣,涉及河流、湖泊、水庫等多種管理對象,同時包括水旱災害防御、水資源管理、水土保持等多種業(yè)務,知識的來源既有結構化數(shù)據(jù)如水利業(yè)務數(shù)據(jù),也有半結構化、非結構化數(shù)據(jù)如水利學科知識文本、互聯(lián)網(wǎng)數(shù)據(jù)等?;谶@些多源數(shù)據(jù),眾多學者[18-20]從不同專業(yè)角度開發(fā)了信息服務平臺,進行水利數(shù)據(jù)的組織管理和信息服務。2019年12月水利部發(fā)布了最新版的全國水利一張圖[21],力圖實現(xiàn)水利信息資源的業(yè)內(nèi)整合共享、水利業(yè)務協(xié)同和智能應用。學者們也對知識圖譜在水利領域的應用進行了探索,并將其引入專業(yè)文獻的計量學分析,如陳思源等[22]、金菊良等[23]研究了我國水資源專業(yè)知識的知識圖譜分析;毛文山等[7]分析了水生態(tài)水環(huán)境專業(yè)知識的圖譜構建;李致慶等[9]則利用知識圖譜技術研究了我國節(jié)水灌溉技術的發(fā)展;劉曉君等[24]對再生水問題的發(fā)展態(tài)勢與研究熱點進行了分析。同時,學者們也在嘗試使用知識圖譜技術整合水利信息資源[2,25],以期實現(xiàn)智能數(shù)據(jù)檢索,構建智能問答系統(tǒng);王新龍等[26]則通過研究知識圖譜的智能關聯(lián)技術,準確鎖定排污企業(yè),完成水污染的精確溯源。

      上述水利領域的知識應用研究,針對部分數(shù)據(jù)源、在部分領域已得到較好的應用,但還難以實現(xiàn)對整個水利行業(yè)知識的有效組織。水利領域的知識既包括科學研究中形成的認知類知識(如水循環(huán)理論、方法等),同時還包括行業(yè)建設管理中的事實類知識(如客觀存在的河流、湖泊、工程等),單純對認知類知識進行提煉和總結,或僅對結構化業(yè)務數(shù)據(jù)進行分析,難以形成對水利綜合知識的認知。此外,多源異構水利數(shù)據(jù)間的融合仍存在技術瓶頸,客觀上也制約著水利知識的整合。為實現(xiàn)水利知識的有效組織,提供全面、高效的水利知識服務,本文在前人研究的基礎上,分析整合各類水利業(yè)務數(shù)據(jù)與學科知識數(shù)據(jù),通過多源異構水利數(shù)據(jù)的融合,實現(xiàn)不同類型水利知識的關聯(lián),構建面向水利綜合的知識圖譜,為支撐水資源智能化管理和提供水利知識服務奠定基礎。

      2 水利知識體系描述

      2.1 水利知識組成 知識是人類從各個途徑中獲得的經(jīng)過提升總結與凝練的對世界的系統(tǒng)認識。世界經(jīng)合組織(OECD)在《以知識為基礎的經(jīng)濟》(1996)報告中將知識分為4 大類:(a)知道是什么(Know-what),主要是敘述事實方面的知識;(b)知道為什么(Know-why),主要是自然原理和規(guī)律方面的知識;(c)知道怎么做(Know- how),主要是指對某些事物的技能和能力;(d)知道是何人(Know-who),涉及誰知道和誰知道如何做某些事的知識。按照知識描述的內(nèi)容是否是客觀存在的實體對象,可以將知識歸為兩類:事實類知識和認知類知識,事實類知識回答是什么、是誰,認知類知識回答為什么、怎么做。

      水利綜合知識體系應包括事實類知識和認知類知識(表1)。水利事實類知識包括各類涉水對象及其屬性與關系,具有實體性、顯性和動態(tài)性等特征,其描述的對象可分為自然對象、工程對象和社會對象三類。其中,自然對象包括水利研究的河流、湖泊、流域等天然實體;工程對象包括人類建造的各類水利水電工程,如大壩、水庫、水電站等;社會對象包括水利管理機構、研究機構、取用排水的機構及相關自然人等。水利認知類知識包括水利領域的概念、原理、規(guī)律、方法等,也可稱之為水利學科知識,具有抽象性、普適性、被認同等特征,通常以各類文獻為載體,用文字和符號來表達。認知類知識主要以水利領域主題詞表及其不同分類領域為基礎,通過水利各學科領域具有上下位關系的主題詞來形成對水利綜合知識的描述框架。

      表1 水利知識部分概念和屬性

      2.2 水利知識關系描述 基于上述水利知識分類,我們對不同水利對象進行細化描述,定義水利知識關系的描述體系(見圖1),主要包括基于事實類知識構建的水網(wǎng)圖譜和以水利學科知識為基礎的學科圖譜兩部分。在水網(wǎng)圖譜中,自然對象間的關系包括水系與流域的隸屬關系,不同級別水系的層級關系,湖泊與流域的隸屬關系等。工程對象與自然對象的關系包括水利工程與流域的隸屬關系、與河流的空間位置關系。社會對象之間的關系包括人與機構的任職關系,機構對區(qū)域的管轄關系等;在三類水網(wǎng)對象的關系方面,包含自然對象、工程對象與地區(qū)的位置關系,機構與自然對象和工程對象間的管理關系;人與自然對象和工程對象間的研究關系等。

      圖1 水利綜合知識圖譜描述體系

      在水利學科圖譜中,包括概念詞條的上下位關系和以原理、規(guī)律、方法等表述的概念關聯(lián)關系。概念詞條關系是按照主題詞的上下位關系進行組織建立的水利學科分類、細分研究領域、具體概念詞條的層級關系。如水利學科可分為水文學、水資源學、水力學、水工建筑物等不同研究方向;而水資源學按照具體的研究內(nèi)容又可分為水資源規(guī)劃、水資源配置、水資源調(diào)度等研究領域;對于各細分領域的具體詞條,再按照上下位關系進行組織,如地表水資源作為上位詞,其下位詞包括河流水資源、湖泊水資源、融雪水資源等。各概念之間還可以通過水利學科的原理、規(guī)律和方法發(fā)生關聯(lián),如水量平衡原理包含對降水、入滲、產(chǎn)流、蒸發(fā)等多種水循環(huán)要素的分析,當其中某一種要素無觀測數(shù)據(jù)時,可根據(jù)該原理進行推求;各要素間也可以通過規(guī)律、方法發(fā)生關聯(lián),如根據(jù)地區(qū)人口、產(chǎn)值與地區(qū)用水量相關的規(guī)律,可將人口、產(chǎn)值與用水量等概念聯(lián)系起來。

      在涉水對象與水利學科知識之間存在事實類和認知類知識的關聯(lián)。基于學科知識的領域分類,可以建立涉水對象的所屬學科領域關系,如對于工程對象中大壩的實例(如“三峽大壩”),可以與水資源管理領域中的詞條“壩”建立關聯(lián),基于此方法可構建涉水對象與學科知識間的對應關系。同時為實現(xiàn)水利綜合知識的構建,還需解決多源異構水利數(shù)據(jù)間的融合問題,主要包括水利實體的融合、屬性的融合及重名實體的消歧等。如多種數(shù)據(jù)同時描述了某個流域的水資源量信息,需通過屬性融合來判斷各數(shù)據(jù)來源的可信度,得到該流域合理的、可信度最高的水資源量數(shù)據(jù)。通過對多源異構水利數(shù)據(jù)的融合,使水網(wǎng)圖譜和學科圖譜有機融合,從而構建出水利綜合知識圖譜。

      3 水利知識圖譜構建

      3.1 水利綜合知識圖譜構建框架 知識圖譜可分為面向全領域的通用圖譜(如WorldNet、FreeBase等)及面向各學科領域的垂直圖譜(或行業(yè)圖譜)兩類。面向水利學科領域的知識圖譜應屬于垂直知識圖譜,具有較強的領域特色,在數(shù)據(jù)采集上同時融合結構化的行業(yè)監(jiān)測數(shù)據(jù)和非結構化、半結構化的百科數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等。本文基于水利專業(yè)知識定義各類水利對象與學科知識間的關系體系(圖1),以結構化的高質(zhì)量水利行業(yè)數(shù)據(jù)為基礎抽取水利實體對象,并在此基礎上從數(shù)據(jù)層、技術層和應用層等角度提出水利綜合知識圖譜構建方案(圖2),主要內(nèi)容包括:

      圖2 水利專業(yè)知識圖譜構建方案

      (1)數(shù)據(jù)層:對源數(shù)據(jù)進行采集和分類處理,包括結構化的水利行業(yè)關系型數(shù)據(jù)庫導出數(shù)據(jù)、半結構化的網(wǎng)頁數(shù)據(jù)、非結構化的文本數(shù)據(jù)等,作為水利實體和關系抽取的數(shù)據(jù)基礎。

      (2)技術層:通過自然言語處理、機器學習等技術從文本數(shù)據(jù)或圖像數(shù)據(jù)中抽取相關實體,并將抽取的實體按照自然對象、工程對象和社會對象的維度進行劃分,通過預定義的水網(wǎng)實體關系模型,抽取不同實體間的關系;基于水利學科分類及詞條概念間的關系進行百科圖譜的構建;在此基礎上進行多源實體及跨域圖譜的融合,包括本體對齊、以多源實體為基礎的語義關聯(lián)及屬性合并、水利知識模型的綜合等內(nèi)容;最終將圖譜表示成結構化形式并使用圖數(shù)據(jù)庫存儲,本研究采用圖數(shù)據(jù)庫中應用較為普及的Neo4j數(shù)據(jù)庫[27],數(shù)據(jù)的存儲包含節(jié)點和關系兩種基本類型,節(jié)點通過定義的關系連接,形成關系網(wǎng)絡結構。

      (3)應用層:基于構建的知識圖譜首先可提供可視化展示與關聯(lián)查詢等應用,考慮到在水利綜合知識圖譜展示中存在大量的知識維度,本研究依據(jù)力導向圖原理,基于圖數(shù)據(jù)庫和D3.js(Data-Driv?en Document)技術實現(xiàn)水利知識圖譜的可視化展示,提高圖譜的展示效率,同時也便于對不同水利對象進行聚類;此外,隨著水利實體的擴充和實體關系的豐富,還可提供基于圖譜的知識問答、水利事件的成因溯源等知識應用。

      3.2 水利綜合知識圖譜關鍵技術

      (1)水利實體識別。在知識圖譜中,獨立存在的事物(對象或概念)被稱為實體,并由“實體-關系-實體”三元組的形式構成知識圖譜的基本單元。對于結構化的水利實體,可基于數(shù)據(jù)表將關系型數(shù)據(jù)直接轉換為三元組。在對非結構化文本進行水利實體識別時,需要將實體識別轉化為序列標注問題進行研究。因此選擇雙向長短期記憶神經(jīng)網(wǎng)絡(Bi-directional Long Shot-Term Memory Neural Network,BiLSTM)與條件隨機場(Condi?tional Random Fields,CRF)相結合的方法來識別水利實體(圖3),并在分詞處理時選擇基于字詞向量相結合的方法。BiLSTM 模型具有強大的非線性擬合及序列建模能力,能夠捕捉較長的上下文信息。CRF 是常用于標注問題的統(tǒng)計學習模型,尤其在數(shù)據(jù)規(guī)模較小時具備較好的識別效果。將BiLSTM與CRF結合用于命名實體識別,可充分綜合各自的優(yōu)點,利用BiLSTM模型挖掘文本中的特征信息,再將結果輸入CRF模型進行序列標注。該方法由Lample等[28]提出,并在多種測試數(shù)據(jù)集上取得了比統(tǒng)計模型更優(yōu)的效果[29]。

      圖3 水利實體識別模型示意

      本研究中,水利實體的識別語料主要是非結構化的水網(wǎng)對象描述信息。首先基于語料樣本制定了標注集,對樣本序列中每個元素按照水利特征定義標簽,并基于此對預處理后的非結構化的水利文本進行標注,確定文本中詞的邊界,為實體識別確定分類特征。然后利用BiLSTM模型進行訓練,通過保存整句的前后文信息來提取句子特征,將文本中前后向的隱藏態(tài)結果進行結合。最后將BiL?STM的模型輸出傳遞給CRF作為輸入,形成BiLSTM-CRF結構,利用上下文信息進行序列標注。在模型訓練中使用了基于字詞向量結合的方法,使用自動獲取的詞典來匹配句子,對輸入字符序列和所有潛在詞匯進行編碼。

      (2)水利實體關系抽取。關系抽取的目標是從非結構化的文本數(shù)據(jù)中,提取出實體之間的關系,本研究采用基于模式匹配和共現(xiàn)網(wǎng)絡分析相結合的方法對水利實體間的關系進行抽取。

      模式匹配法是運用語言學知識,根據(jù)水利實體特征構建基于語詞、詞性或語義的實體關系模式,再將水利實體文本與模式進行匹配的關系抽取方法。在抽取過程中,首先根據(jù)水利語料樣本構建實體間關系的表達方式,如為了表達河流與地區(qū)間的“流經(jīng)”關系,可構建出[河流名稱]流經(jīng)[地區(qū)名稱]的關系模式;在利用預處理后的其他文本進行實體關系抽取時,可基于該模式匹配“黃河流經(jīng)河南省”并從中抽取出自然對象“黃河”與社會對象“河南省”之間的流經(jīng)關系。水利實體間的關系模板示例如圖4所示。

      圖4 水利實體關系模板

      基于共現(xiàn)網(wǎng)絡分析的方法,是通過構建共現(xiàn)矩陣來確定實體間的關系,其基本假定是關系緊密的實體會在文本的多個片段中同時出現(xiàn)。首先基于統(tǒng)計的方法抽取各水利實體在文本中出現(xiàn)的次數(shù),然后分析不同實體在文本中共現(xiàn)的比例,當兩個實體共同出現(xiàn)的比例大于某個閾值時,認為這兩個實體間存在某種關系。實體間的關系可基于實體的類型進行定義,如河流和地區(qū)之間是流經(jīng)的關系,機構與河流之間的管轄的關系等(圖5)。

      圖5 水利實體的關系共現(xiàn)矩陣示意

      在本研究中,采用共現(xiàn)網(wǎng)絡分析方法與模式匹配方法聯(lián)合提取實體間的關系。首先基于共現(xiàn)網(wǎng)絡分析法統(tǒng)計水利文本中多個實體共現(xiàn)的頻率,并通過實驗來給定頻率的閾值。然后采用模式匹配法,對共現(xiàn)網(wǎng)絡的分析結果添加關系,包括流經(jīng)地區(qū)、管理機構、所在河流等。

      (3)多源水利知識融合。

      ①水利實體融合。水利知識的融合主要是將不同數(shù)據(jù)源對同一實體或概念的描述統(tǒng)一起來,使異構的圖譜相互溝通[29],可分為實體的融合、數(shù)據(jù)屬性的融合、重名實體的消歧等多個層面。實體的融合,是針對不同數(shù)據(jù)源對同一實體缺乏統(tǒng)一標識的問題,通過融合來構建不同數(shù)據(jù)源中實體的語義關聯(lián)。屬性的融合是解決不同數(shù)據(jù)源中同一實體屬性的一致性問題。重名實體的消歧,是對水利對象中具有同名異意、異名同意、同名多源等特征的實體(如地名、水庫名等)的融合,主要基于實體結構和實體的屬性特征進行匹配。在處理水利實體的消歧時,將所有數(shù)據(jù)節(jié)點投影到一個全局的統(tǒng)一表征空間,針對每個候選集合分別構造一個局部表征函數(shù),以此來度量兩個實體節(jié)點之間的相似度。然后基于相似度對節(jié)點進行聚類,并根據(jù)聚類結果對候選集合進行拆分,從而得到最終的數(shù)據(jù)融合結果。

      以實體的融合為例,如從百科詞條中抽取到“水利部黃河水利委員會”實體,從行業(yè)數(shù)據(jù)庫導入的機構數(shù)據(jù)含有“黃委會”實體,這兩個實體名稱是對同一實體的描述,但因數(shù)據(jù)來源不同,需要對二者進行融合。首先通過編輯距離指標來計算兩個字符串的相似度,然后根據(jù)兩個實體的屬性信息分析相關屬性的相似度,最后基于兩個實體的圖譜關系(如上下級機構關系)計算圖譜結構相似度。通過對上述三種相似度進行綜合分析,若大于設定閾值,則將兩個實體進行融合。

      ②圖譜跨域融合,即對水網(wǎng)圖譜與水利學科圖譜進行融合,包括水利原理或規(guī)律與水網(wǎng)實體的融合、概念詞條與水網(wǎng)實體之間的知識融合等。技術上先采用實體對齊技術匹配實體字符的局部特征,然后再使用全局特征匹配兩個圖譜中的相關實體。在學者融合方面主要是對新增學者與庫中已有專家的匹配與更新,通過學者的屬性信息判斷是否與庫中專家重復,對重復學者解決屬性的一致性問題。在主題詞與水網(wǎng)實體的融合方面,通過建立主題詞與水網(wǎng)實體的聯(lián)系來實現(xiàn),如構建“學科領域—研究人員—任職機構—研究對象”等關系,實現(xiàn)學科主題詞與水網(wǎng)對象中具體的人、機構、河流等對象的關聯(lián)。

      以水網(wǎng)對象“黃河”與百科詞條“水土保持”的跨域融合為例進行說明。在進行跨域融合時,首先基于平臺收錄的數(shù)據(jù)查找二者的共現(xiàn)關系,包括在論文、專家研究領域的描述等文本中的共現(xiàn);然后根據(jù)二者的共現(xiàn)情況進行融合,若存在共現(xiàn)關系,且共現(xiàn)的載體(如論文)是已建圖譜中的實體,則將二者通過共現(xiàn)的中間實體建立關聯(lián);若共現(xiàn)的載體不在已有的圖譜中,則根據(jù)共現(xiàn)網(wǎng)絡分析的方法來確定是否建立二者的關系。

      以上基于多源數(shù)據(jù)進行的水利知識融合,需對從異構數(shù)據(jù)中抽取的知識圖譜元數(shù)據(jù)進行語義集成。在本研究中,語義集成采用了基于貝葉斯決策理論提出的最小風險映射模型(Risk Minimization based Ontology Mapping,RiMOM)[30],將決策行為定義為兩類本體(包括概念、關系、實例等)中不同元素的所有可能映射,分析水利本體間映射的風險最小決策行為,其主要流程包括候選映射選擇、多策略的映射發(fā)現(xiàn)、多策略合并以及映射發(fā)現(xiàn)機制,映射發(fā)現(xiàn)過程迭代運行直到不能再發(fā)現(xiàn)新的映射為止,最終得到兩類本體中元素間的映射關系。

      4 圖譜構建實例及應用

      4.1 圖譜抽取成果 以全國河流水系編碼數(shù)據(jù)、行政區(qū)劃數(shù)據(jù)、重要水利工程管理數(shù)據(jù)等關系型數(shù)據(jù)庫為基礎,基于本文方案構建水利綜合知識圖譜。并基于水利百科、論文及新聞數(shù)據(jù)對圖譜的實體及關系數(shù)據(jù)進行補充。抽取的實體類型包括流域、水系、河流、湖泊、水電站、水庫、大壩、機構、人員、文獻、水利術語等,構建的實體關系包括水系-河流(所在水系)、河流-行政區(qū)域(所在地區(qū))、文獻-水利術語(研究領域)等,累計抽取水利實體超過136萬個(表2),構建實體關系超過300萬條(表3)。因不同實體對象的粒度不同,基于實體抽取的關系與實體的數(shù)量上存在一定差異。

      表2 水利專業(yè)知識圖譜實體統(tǒng)計

      表3 水利專業(yè)知識圖譜關系統(tǒng)計

      關于實體識別準確性的評價,采用F值來評估圖譜構建中對實體標注成果的一致性[31],其計算表達式為:

      式中:P為準確率,是識別正確實體數(shù)與識別實體數(shù)之比;R為召回率,定義為識別正確實體數(shù)與總實體數(shù)之比。F值越大,表明標注的一致性越好。

      按照知識圖譜構建中語料分割的常用方法[32],將實體識別語料按8∶1∶1的比例生成訓練集、驗證集和測試集,對9類實體數(shù)據(jù)進行了標注測試,各類實體F值的統(tǒng)計結果如表4所示。測試結果表明,抽取的水利實體對象的標注準確率均在80%以上,可以認為語料的一致性是可信賴的[33],實體識別的結果具有較高準確性。

      表4 各類實體類型標注準確率

      4.2 水網(wǎng)圖譜結果展示 由于水網(wǎng)對象數(shù)量較多,本文以北京地區(qū)的各類水利水網(wǎng)對象進行圖譜的展示(圖6)。北京市地處海河流域,海河流域同時又流經(jīng)天津、河北等省市,由此關聯(lián)了流域與行政區(qū)兩類實體;北京地區(qū)有北海、團城湖等湖泊類對象,還有潮白河、懷河等河流對象,由此將行政區(qū)與湖泊、河流對象相關聯(lián);這些河流和湖泊,在海河流域中又分屬于不同的水系,如北海屬于海河流域的北三河水系,這樣就構建了水利自然對象間不同層級的相關關系;其他數(shù)據(jù)同理。通過圖譜形式的檢索和查詢,可實現(xiàn)基于對象關聯(lián)關系的信息檢索和推薦[2]。與常見的區(qū)域水系圖相比,圖譜的表現(xiàn)形式能更簡潔地展現(xiàn)水網(wǎng)對象間的關聯(lián),便于從宏觀層面把握水利對象的總體特征,同時能支持特定對象間關系的快速檢索和查詢。

      圖6 北京地區(qū)水網(wǎng)關系圖譜示例

      4.3 水利專業(yè)知識圖譜應用

      4.3.1 不同水利實體間關系查詢 查詢兩個實體之間的關系時,系統(tǒng)會自動在知識圖譜中查找實體關聯(lián)路徑,并將路徑中相關的實體及關系信息進行可視化展示。如本例查詢葛洲壩水庫與長江的關系,查詢結果顯示可通過建立“葛洲壩水庫(工程對象)—長江干流水系—水利部長江流域委員會(社會對象)—長江(自然對象)”的關系脈絡,實現(xiàn)不同水利對象間的數(shù)據(jù)關聯(lián)。其中既包括了葛洲壩水庫與長江的關系,還同步展示了該水庫所屬水系包括的其他下級支流以及相關的管理機構。

      圖7 查詢水網(wǎng)實體間相關關系

      4.3.2 水網(wǎng)對象與學科知識間關系查詢 水利學科圖譜與水網(wǎng)圖譜間的關系查詢,可以水利文獻為媒介建立關系。如水資源專業(yè)可分為水資源調(diào)度、水資源配置等若干個研究方向,每個研究方向有相應的水利核心主題詞。本研究建設了涵蓋水利主要研究領域的行業(yè)主題詞表,在對某個主題詞進行檢索后,可以同步查詢與該詞條相關的其他詞條間的層級關系,形成對該領域知識體系的有效組織?;谥黝}詞搜索相關的水利文獻,可以構建“水利主題詞(學科知識)—文獻—作者(水利研究人員)—機構(水利管理/科研機構)”的關系。圖8展示了在學科圖譜中查找關鍵詞“水資源”,關聯(lián)出“地下水資源”這一細分領域,該領域中發(fā)表的論文包括“《商丘市地下水資源現(xiàn)狀與對策》”,由該論文又關聯(lián)出作者是“倪昆”,該作者任職于“河南省國土資源科學研究院”,由此實現(xiàn)了水網(wǎng)圖譜與學科圖譜間的關聯(lián)。

      圖8 查詢水網(wǎng)對象與學科知識對象間的關系

      在水利學科的原理、規(guī)律和方法與水網(wǎng)對象的關聯(lián)上,基于對水利實體及屬性數(shù)據(jù)的采集和分析,后續(xù)可實現(xiàn)基于水利學科原理的知識推理。例如在系統(tǒng)收錄了“海河流域”這一天然對象并賦以了“多年平均降水量”和“多年平均徑流量”屬性后,當用戶檢索“海河流域多年平均蒸發(fā)量是多少”時,可以基于水文學的水量平衡原理定義流域多年蒸發(fā)量的獲取規(guī)則,利用降水量減去徑流量,即可得到流域多年的平均蒸發(fā)量,并將結果反饋給用戶,由此實現(xiàn)基于水量平衡原理與水網(wǎng)對象的關聯(lián)。

      5 結論與展望

      知識圖譜作為人工智能與計算機發(fā)展的產(chǎn)物,是知識可視化和知識挖掘與發(fā)現(xiàn)的重要手段。在水利管理中,隨著信息化水平的不斷提高,將多源異構數(shù)據(jù)進行融合與關聯(lián),形成知識挖掘與發(fā)現(xiàn)的能力,對實現(xiàn)水利行業(yè)的智能化管理有著重要意義。本文基于對水利知識組成及關系的梳理與分析,提出了水利綜合知識體系的描述方法;設計了水利綜合知識圖譜構建的概念框架;以水利行業(yè)關系型數(shù)據(jù)庫、互聯(lián)網(wǎng)數(shù)據(jù)與百科知識等為數(shù)據(jù)源,提出了水利綜合知識圖譜構建的關鍵技術體系;研發(fā)了針對非結構化文本的水利實體識別和關系抽取、多源水利實體的融合等關鍵技術,基于本文提出的框架和技術進行了水利綜合知識圖譜建設實踐,形成了具有一定數(shù)據(jù)規(guī)模的知識圖譜,可提供水利知識的跨域查詢與檢索服務。

      本文以建立水利物理世界中的事實類知識與認知類的水利學科知識統(tǒng)一的綜合性關聯(lián)知識圖譜為整體思路,重點實現(xiàn)了水利綜合知識圖譜實體屬性和關系的建模、抽取,實現(xiàn)了部分知識的融合。但在知識融合、挖掘與衍生上,還有很多值得探索的問題。在未來工作中,還需要進一步完善知識抽取的算法,擴大知識圖譜的覆蓋范圍;研發(fā)知識融合、知識發(fā)現(xiàn)的新技術,融合水利相關的專業(yè)模型等,打造以知識圖譜為核心的水利行業(yè)知識引擎;在此基礎上進一步將知識圖譜與水利行業(yè)的數(shù)據(jù)治理相融合,開展面向圖像、視頻、傳感器等智能終端的知識工程探索,擴展多模態(tài)的知識圖譜表示,基于事實類與認知類知識與水利大數(shù)據(jù)的融合開展水資源智能化監(jiān)測、分析、預警和調(diào)控等具體的應用產(chǎn)品建設,提高水利智能化管理水平。

      猜你喜歡
      水網(wǎng)圖譜實體
      水利部:到2035 年基本形成國家水網(wǎng)總體格局
      水網(wǎng)藻生長及鈾對其生長影響的模型構建
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      ●山西加快推進縣域小水網(wǎng)配套建設
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      山西省大水網(wǎng)工程建設如火如荼
      山西水利(2017年1期)2017-03-07 08:50:31
      龙江县| 盐边县| 正蓝旗| 芒康县| 霸州市| 厦门市| 高台县| 贵南县| 武安市| 拜泉县| 山东| 门头沟区| 永吉县| 宣城市| 博兴县| 治县。| 板桥市| 两当县| 昌吉市| 灌云县| 延寿县| 绿春县| 南丹县| 灌阳县| 永平县| 徐水县| 宁南县| 都昌县| 清水河县| 龙陵县| 漳平市| 广灵县| 志丹县| 松滋市| 光泽县| 平昌县| 义乌市| 祁连县| 永年县| 吉林省| 都江堰市|