• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      知識圖譜在海洋領(lǐng)域的應(yīng)用及前景分析綜述

      2022-02-24 12:31:22熊中敏馬海宇
      計算機工程與應(yīng)用 2022年3期
      關(guān)鍵詞:圖譜實體海洋

      熊中敏,馬海宇,李 帥,張 娜

      1.上海海洋大學(xué) 信息學(xué)院,上海201306

      2.成都理工大學(xué) 旅游與城鄉(xiāng)規(guī)劃學(xué)院,成都 610059

      廣袤的海洋占據(jù)了地球表面近70%的區(qū)域,孕育了海量的生物、礦物資源以及能源等。近年來,由于陸地資源的開采與消耗日趨飽和,國家對海洋資源、數(shù)據(jù)的重視程度進一步提升,提出了堅持陸海統(tǒng)籌,發(fā)展海洋經(jīng)濟,建設(shè)海洋強國的迫切要求[1]。加之隨著人工智能等技術(shù)的興起,一方面推動海洋領(lǐng)域的數(shù)據(jù)與海洋領(lǐng)域知識海量發(fā)展的同時,也極大推進了海洋領(lǐng)域科學(xué)研究的發(fā)展。當(dāng)前海洋領(lǐng)域研究方向繁多,海洋經(jīng)濟、海洋遙感、海洋工程等數(shù)不勝數(shù),這些條目之間不僅存在著深層次的聯(lián)系,而且其內(nèi)還存在著大量的冗余數(shù)據(jù)和尚待開發(fā)的知識文本。如何高效地利用數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性與知識間的關(guān)聯(lián)性實現(xiàn)信息檢索和信息推理,是當(dāng)前海洋數(shù)據(jù)研究與處理的瓶頸之一。

      知識圖譜(knowledge graph,KG)最早由語義網(wǎng)絡(luò)發(fā)展而來[2],實質(zhì)上是一個涵蓋圖結(jié)構(gòu)的知識庫,這種存儲結(jié)構(gòu)就使得知識圖譜能有效存儲基于數(shù)據(jù)與知識間的關(guān)聯(lián)關(guān)系。圖譜中的節(jié)點用以表示實體或者概念,邊用以表示實體間或者概念間的語義關(guān)系,通過將各類數(shù)據(jù)和連接關(guān)系以節(jié)點、邊的形式聚合成知識,使得知識圖譜可以通過相關(guān)的圖匹配算法來實現(xiàn)高效的數(shù)據(jù)以及領(lǐng)域知識的檢索[3]。知識圖譜的另外一個優(yōu)點是具備推理能力[4],可以智能地從現(xiàn)有知識挖掘出多方面的隱含知識。也正得益于知識圖譜對現(xiàn)實世界中知識的高效組織與整理,促進了人與機器的有效溝通,因此已廣泛應(yīng)用于搜索引擎領(lǐng)域、金融領(lǐng)域[5]、教育領(lǐng)域[6]、農(nóng)業(yè)領(lǐng)域等[7]。由于知識圖譜可以通過實體間關(guān)系的挖掘找到實體之間更為深層次的聯(lián)系,應(yīng)用于海洋領(lǐng)域不僅可以通過相關(guān)軟件可視化分析來明確領(lǐng)域研究的當(dāng)前熱點、為未來研究方向的推理提供強有力的數(shù)據(jù)支撐,還可以通過構(gòu)建海洋特點領(lǐng)域的知識圖譜來打破不同場景之間的數(shù)據(jù)隔閡,為海洋數(shù)據(jù)面向應(yīng)用提供助力。

      雖然當(dāng)前知識圖譜相關(guān)的技術(shù)和理論在飛速進步,但當(dāng)前海洋領(lǐng)域與知識圖譜技術(shù)的結(jié)合還不夠深入,無法有效利用相關(guān)技術(shù)實現(xiàn)對海洋領(lǐng)域知識的進一步獲取,且知識圖譜在近幾年才在海洋領(lǐng)域有了比較大規(guī)模的研究,針對知識圖譜在海洋領(lǐng)域的應(yīng)用過程所帶來的優(yōu)勢還不明顯。另外針對海洋領(lǐng)域,知識圖譜的應(yīng)用場景模糊,當(dāng)前涉足海洋領(lǐng)域的專業(yè)人員無法深入利用知識圖譜。針對以上出現(xiàn)的問題,本文總結(jié)了應(yīng)用于海洋領(lǐng)域的知識圖譜相關(guān)技術(shù)的研究進展以及落地實例,為以后海洋領(lǐng)域中采用知識圖譜技術(shù)提供理論支撐以及技術(shù)參考。

      知識圖譜這一概念自提出以來,涌現(xiàn)了大批學(xué)者利用知識圖譜出色的關(guān)聯(lián)性表達能力實現(xiàn)相關(guān)領(lǐng)域文獻的可視化分析[8]。如圖1中利用海洋領(lǐng)域的相關(guān)文獻,通過關(guān)鍵詞聚類的方法繪制出海洋領(lǐng)域一段時期內(nèi)的研究熱點與重心,可以把握當(dāng)前研究態(tài)勢,緊跟國際研究熱潮。伴隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)量的上升也催生了相當(dāng)數(shù)量的知識庫,例如DBpedia、Freebase、Wikidata等。但以上知識庫均存儲的是通用領(lǐng)域知識,目前仍然缺乏針對海洋領(lǐng)域的知識圖譜型知識庫。

      圖1 海洋領(lǐng)域文獻關(guān)鍵詞可視化圖譜Fig.1 Visual map of keywords in marine literature

      當(dāng)前階段,針對國內(nèi)海洋領(lǐng)域所采用的知識圖譜技術(shù)尚未出現(xiàn)統(tǒng)一的梳理,本文將當(dāng)前應(yīng)用于海洋領(lǐng)域內(nèi)的知識圖譜技術(shù)主要分為以下兩個方面:(1)以大量文獻的統(tǒng)計分析為主,利用構(gòu)建領(lǐng)域相關(guān)分析目標(biāo)的節(jié)點鏈接圖為輔,實現(xiàn)相關(guān)領(lǐng)域研究的針對性梳理,用于確定當(dāng)前的研究熱點,進而推理出未來的研究方向。(2)通過知識抽取、知識融合、知識計算和知識應(yīng)用等關(guān)鍵方法來構(gòu)建海洋領(lǐng)域的垂直知識圖譜,實現(xiàn)對目標(biāo)的相關(guān)知識數(shù)據(jù)的快速檢索。

      1 海洋領(lǐng)域知識圖譜研究進展

      2012年,谷歌將知識圖譜這一概念引入學(xué)術(shù)界[9],利用多源數(shù)據(jù)增強搜索引擎的匹配精準(zhǔn)度。相較于傳統(tǒng)的詞匹配搜索引擎,基于知識圖譜的搜索引擎能夠從用戶的搜索關(guān)鍵詞進行關(guān)聯(lián)分析,準(zhǔn)確且清晰反饋給用戶問題結(jié)果。如圖2所示,利用基于知識圖譜搜索引擎Magi(https://magi.com)搜索關(guān)于“海洋”的信息,可以清楚看到,搜索完畢后顯示的界面不僅包含了與海洋有關(guān)的頁面鏈接,還在知識圖譜的輔助下將海洋相關(guān)描述、標(biāo)簽一一對應(yīng)到網(wǎng)址中。用戶可以依此信息快速跳轉(zhuǎn)到自己的搜索目標(biāo)。這種方式極大地提升了人們的查詢效果,也進一步催生了知識圖譜的廣泛應(yīng)用。

      圖2 基于知識圖譜引擎的搜索Fig.2 Search based on knowledge graph engine

      1.1 海洋領(lǐng)域文獻的可視化分析

      面對浩如煙海的文獻數(shù)據(jù),對于科研工作者來說,最為關(guān)鍵的是如何高效、準(zhǔn)確地獲取有用信息。利用這些信息可以清楚研究方向的發(fā)展歷程,分析出國家或區(qū)域間最為前沿的研究方向以及關(guān)注研究的發(fā)展趨勢。文獻計量工具正是基于這些方面,能夠有利地幫助研究人員對文獻進行快速且準(zhǔn)確的分析。本文以六種代表性的輔助工具名稱為關(guān)鍵字在CNKI中進行搜索,從中提取了8 295篇文獻進行統(tǒng)計分析。在不考慮同時使用多種輔助工具的條件下,得出各項輔助工具在文獻中的使用頻率占比依次為Citespace(84.68%)、VOSviewer(4.56%)、Ucinet(3.51%)、Histcite(1.65%)、Pajek(1.01%)以及Bibexcel(0.70%)。據(jù)此本文對文獻分析領(lǐng)域最為常用的前三種可視化分析工具Citespace、VOSviewer以及Ucinet的關(guān)鍵性分析方法進行探究,并對海洋領(lǐng)域文獻分析的可用輔助工具進行總結(jié)。

      1.1.1 CiteSpace

      2003年,李杰等人[10]開發(fā)出可視化分析工具Star-Walker軟件,后又命名為CiteSpace,能夠分析眾多文獻內(nèi)蘊含的潛在信息,利用相關(guān)的可視化方法呈現(xiàn)出探究方向、研究演變規(guī)律及分布信息等。最初僅提供文獻的共引分析功能,后又引入各個知識間信息的共現(xiàn)分析,如作者、國家、機構(gòu)等。Citespace支持WoS、CNKI等多個中英文平臺文獻數(shù)據(jù)的直接導(dǎo)入,能對科研文獻數(shù)據(jù)進行高效分析,因此廣泛應(yīng)用于領(lǐng)域文獻分析工作。本文通過分析海洋領(lǐng)域知識圖譜應(yīng)用的34篇文獻,發(fā)現(xiàn)最為海洋領(lǐng)域科學(xué)工作者常用的CiteSpace分析功能為共被引和耦合網(wǎng)絡(luò)分析、科研合作網(wǎng)絡(luò)分析以及主題和領(lǐng)域共現(xiàn)網(wǎng)絡(luò)分析。

      共被引關(guān)系是指在文獻引用時,若A文獻與B文獻共同被C文獻所引用,則A與B文獻之間就存在共被引關(guān)系[11]。而耦合關(guān)系指的是,在A文獻與B文獻共同引用C文獻時,A文獻與B文獻之間就存在了耦合關(guān)系[12]。在一個文獻集中,通過共被引和耦合網(wǎng)絡(luò)關(guān)系挖掘就能找出研究主題相近的文獻。

      CiteSpace中提供了學(xué)者、機構(gòu)以及國家和地區(qū)合作三種分析方式,能夠深入探究微觀和宏觀層次學(xué)術(shù)間的聯(lián)系。主題和領(lǐng)域共現(xiàn)針對從文獻標(biāo)題、關(guān)鍵詞和摘要中提取的名詞性短語以及科學(xué)領(lǐng)域名稱進行分析,使得每篇被引文獻主題更為突出和直觀,便于進一步地分析處理。通過以上功能實現(xiàn)的可視化分析能夠揭示數(shù)據(jù)間的復(fù)雜聯(lián)系和隱含聯(lián)系,在分析和研究學(xué)科的動態(tài)發(fā)展規(guī)律上具有顯著的優(yōu)勢[13]。

      1.1.2 VOSviewer

      Van Eck與Waltman在2010年開發(fā)出文獻計量軟件VOSviewer[14],其適用范圍不僅涵蓋了學(xué)術(shù)出版物,對于社交媒體及網(wǎng)絡(luò)上的一些半結(jié)構(gòu)化數(shù)據(jù)都有著較強的適用性。

      VOSviewer能夠基于共現(xiàn)數(shù)據(jù)進行文獻作者、期刊以及關(guān)鍵詞等的聚類網(wǎng)絡(luò)構(gòu)建,且該程序采用了基于距離的圖譜構(gòu)建方式,使得節(jié)點的距離遠近可以清晰地反饋關(guān)系的強弱程度,距離越近則聯(lián)系越緊密[15]。這種做法易于聚類但網(wǎng)絡(luò)中存在大量未標(biāo)記數(shù)據(jù)時不利于為節(jié)點添加標(biāo)簽。

      VOSviewer的一大優(yōu)勢是支持從CNKI、WoS、PubMed等一眾中英文文獻平臺的數(shù)據(jù)信息讀取。其操作簡單、頁面簡潔,而且生成的圖譜網(wǎng)絡(luò)能夠快速配置,不容易造成節(jié)點的堆疊現(xiàn)象。另外網(wǎng)絡(luò)可視化、時間演變可視化以及密度可視化三種呈現(xiàn)方式大大提高了關(guān)鍵信息的獲取能力,故其應(yīng)用一直較為廣泛,但也存在聚類方法固定、不支持對圖譜網(wǎng)絡(luò)的節(jié)點細節(jié)信息的調(diào)整等問題。

      1.1.3 Ucinet

      Ucinet的問世可追溯至由Freeman[16]創(chuàng)建的版本,后又經(jīng)Borgatti與Everett的不斷完善,迄今為止支持txt、csv、xls、vna格式以及其他程序格式,譬如Pajek、Negopy、Krackplot。

      較為特殊的是,Ucinet中的所有數(shù)據(jù)均采用矩陣的形式存儲,因此可以便捷地對數(shù)據(jù)進行多元統(tǒng)計、凝聚子群檢測、等效節(jié)點分析與網(wǎng)絡(luò)的假設(shè)檢驗等,但也限定了讀入數(shù)據(jù)的內(nèi)容只能為共現(xiàn)矩陣形式。故需對數(shù)據(jù)進行預(yù)處理,較為便捷的做法是利用STAI程序[17]對待分析的文獻關(guān)鍵詞進行詞頻統(tǒng)計,將生成的共現(xiàn)關(guān)系矩陣導(dǎo)入Ucinet[18]。

      此外,對關(guān)鍵詞進行可視化分析還需使用Ucinet內(nèi)置的NetDraw工具,通過節(jié)點中心性分析使得在網(wǎng)絡(luò)中作用強的節(jié)點在圖譜中更大,在同篇文章中共現(xiàn)強度大的線條更粗。

      針對不同作者、地區(qū)等來源的文獻分析實質(zhì)上屬于整體網(wǎng)絡(luò)的研究,這種對于眾多待分析文獻之間的關(guān)系進行探究更側(cè)重于關(guān)系的傳遞、整體網(wǎng)密度、距離等,能夠深入分析文獻之間的結(jié)構(gòu)[19],這也是Ucinet最為明顯的優(yōu)勢。但因其還需針對數(shù)據(jù)進行預(yù)處理,無法直接針對各種平臺的導(dǎo)出文獻直接進行分析,而且無法對聚類網(wǎng)絡(luò)進行動態(tài)呈現(xiàn)及調(diào)整,因此近年來在領(lǐng)域文獻分析應(yīng)用上并不廣泛。

      如表1所示,海洋文獻數(shù)據(jù)量多,在利用Ucinet做領(lǐng)域文獻分析時,雖然可以對生成的圖譜網(wǎng)絡(luò)進行自定義操作,但其不能夠直接對平臺數(shù)據(jù)進行利用,相較于VOSviewer缺乏了便捷性,且關(guān)鍵詞等數(shù)據(jù)信息過多時,標(biāo)簽的堆疊會影響可視化效果。VOSviewer學(xué)習(xí)成本低,使用便捷且附帶的密度可視化功能能夠最大程度上提供關(guān)鍵信息,適合處理大型復(fù)雜數(shù)據(jù)。但其聚類核心算法較為單一且固定,而且難以對聚類圖譜的節(jié)點進行自由調(diào)整。Citespace結(jié)合了Ucient與VOSviewer的優(yōu)勢,既能夠直接對中英文文獻數(shù)據(jù)進行分析,還提供了集群視圖、時間軸視圖等呈現(xiàn)方式,功能更加豐富,可操控性更強,因此Citespace廣泛應(yīng)用于各領(lǐng)域文獻分析中。本文將重點探究利用Citespace進行海洋領(lǐng)域文獻分析的演變歷程。

      表1 常用文獻計量工具對比表Table1 Comparison table of commonly used bibliometric tools

      1.1.4 海洋文獻的可視化分析演變

      早在2012年知識圖譜正式被谷歌提出之前,贠強等人[20]將主題共現(xiàn)分析引入海洋水產(chǎn)業(yè),通過梳理各國海洋水產(chǎn)養(yǎng)殖論文的高頻關(guān)鍵詞,繪制出類圖譜形式的網(wǎng)絡(luò),從而得出了不同國家針對海洋水產(chǎn)領(lǐng)域養(yǎng)殖的主要關(guān)注點。但眾多關(guān)鍵詞屬于并列存在,圖譜中每個節(jié)點都堆疊了大量的關(guān)鍵詞,既增加了分析的難度,也沒有很好地凸顯主要關(guān)鍵詞的重要性,起到的輔助效果并不顯著。

      2016年,韓增林等人[21]將當(dāng)時已經(jīng)較為成熟的CiteSpace軟件應(yīng)用到了中國海洋資源分析上,通過將關(guān)鍵詞以及作者圖譜化,已經(jīng)能夠做到將相關(guān)重點信息突出顯示,正式拉開了將CiteSpace可視化工具引入海洋領(lǐng)域文獻分析的序幕。CiteSpace可視化有利于彰顯關(guān)鍵信息,但不利于多項詳細數(shù)據(jù)的對比,針對這一問題,2017年,張??〉热薣22]結(jié)合關(guān)鍵詞統(tǒng)計三線表和基于共詞分析的知識圖譜用于海洋科學(xué)領(lǐng)域內(nèi)的分析。

      從2018年開始,以關(guān)鍵詞、作者以及研究機構(gòu)數(shù)據(jù)對比三線表和關(guān)鍵詞圖譜的聯(lián)合分析已漸成主流分析方式,諸如海洋藥物[23]、珊瑚礁[24]、海洋油氣安全等[25]研究方向較為具體的領(lǐng)域也開始沿用這一方式。2019年和2020年,針對海洋領(lǐng)域的相關(guān)文獻分析實現(xiàn)井噴式增長,上海海洋大學(xué)[26-31]、中國海洋大學(xué)[32-33]等高校科研機構(gòu)開始大量將知識圖譜應(yīng)用于海洋領(lǐng)域進行文獻分析,也標(biāo)志著知識圖譜技術(shù)在海洋領(lǐng)域文獻分析地位的正式確立,但依托可視化圖譜工具形成的聚類網(wǎng)絡(luò)缺乏分析,還需科研人員的深入研究和知識再加工,而且針對海洋領(lǐng)域文獻的探究尚停留在分析階段,如何有效地將學(xué)術(shù)聯(lián)系實際數(shù)據(jù),真正與實際應(yīng)用相結(jié)合是目前海洋學(xué)術(shù)領(lǐng)域有待商榷的問題。

      1.2 海洋領(lǐng)域垂直圖譜構(gòu)建

      海洋領(lǐng)域的知識圖譜可以表示海洋領(lǐng)域數(shù)據(jù)與知識屬性、數(shù)據(jù)與知識間的內(nèi)在關(guān)聯(lián)。如圖3,利用數(shù)據(jù)層和方法層的構(gòu)建,就能夠做到很好地服務(wù)于應(yīng)用層。大體上,服務(wù)于海洋領(lǐng)域的知識圖譜與服務(wù)于通用知識的圖譜結(jié)構(gòu)上相同,但又有以下幾個特性[34]:(1)不同于通用知識圖譜的全面概括性,海洋領(lǐng)域的數(shù)據(jù)與知識只涵蓋海洋領(lǐng)域范疇內(nèi)的研究對象。例如海洋生物、海洋環(huán)境等。相較于通用知識圖譜具備更高的精度以及更為嚴(yán)格的可解釋性,利于海洋領(lǐng)域?qū)<壹把芯咳藛T對其結(jié)果進行驗證分析與理解。(2)通用知識圖譜可以利用網(wǎng)絡(luò)的開放資源進行構(gòu)建,面向的服務(wù)對象較為寬泛,數(shù)據(jù)來源也不作過多要求,但海洋領(lǐng)域垂直圖譜對數(shù)據(jù)來源要求苛刻,多數(shù)源于自身的數(shù)據(jù)觀測與積累以及相關(guān)權(quán)威機構(gòu)的數(shù)據(jù)發(fā)布,部分難以直接從網(wǎng)絡(luò)中獲得,因此有很大的局限性。以上這些特性也決定了海洋領(lǐng)域垂直圖譜的構(gòu)建方式。

      圖3 知識圖譜結(jié)構(gòu)Fig.3 Knowledge graph structure

      當(dāng)前服務(wù)于特定領(lǐng)域的知識圖譜構(gòu)建主要分為自頂向下和自底向上兩種方法[35]。自頂向下方法主要依托完善的高質(zhì)量結(jié)構(gòu)化數(shù)據(jù),需要人工事先定義好本體框架,再抽取輸入數(shù)據(jù)的相關(guān)實體、關(guān)系等信息完成圖譜的構(gòu)建,這種方法主要針對行業(yè)知識圖譜、特定領(lǐng)域知識圖譜等。而自底向上的方式則是從網(wǎng)絡(luò)上的開放數(shù)據(jù)集和非結(jié)構(gòu)化文本中提取出置信度高的知識數(shù)據(jù),這種方法能夠大批量地獲取廣泛數(shù)據(jù),因此適用于通用知識圖譜的構(gòu)建,在缺乏專業(yè)數(shù)據(jù)時,自底向上同樣可以應(yīng)用于海洋領(lǐng)域,不僅能夠節(jié)省人力成本,而且在高質(zhì)量數(shù)據(jù)缺乏時構(gòu)建效果要優(yōu)于自頂向上的方式。本文主要針對面向海洋領(lǐng)域的垂直圖譜構(gòu)建技術(shù)進行分析與探究。

      根據(jù)國家海洋科學(xué)中心(http://mds.nmdis.org.cn)的分類,海洋數(shù)據(jù)大體可分為兩種屬性:(1)海洋水文、海洋氣象、海洋生物、海洋化學(xué)、海洋地質(zhì)、海洋地球物理以及海洋地形等實測數(shù)據(jù)。(2)海洋環(huán)境遙感產(chǎn)品、遙感影響、海底地形以及矢量地圖數(shù)據(jù)等地理與遙感數(shù)據(jù)。以上涉及海洋領(lǐng)域的數(shù)據(jù)類型可分為非結(jié)構(gòu)化與結(jié)構(gòu)化兩種[36],其中結(jié)構(gòu)化數(shù)據(jù)中又包含半結(jié)構(gòu)化數(shù)據(jù)。本文主要基于較難提取的半結(jié)構(gòu)化以及非結(jié)構(gòu)化這兩種數(shù)據(jù)進行海洋垂直圖譜的構(gòu)建分析。其中涉及的關(guān)鍵技術(shù)主要有海洋領(lǐng)域知識抽取、海洋領(lǐng)域知識融合以及針對融合后知識的計算。下面將介紹知識抽取涉及到的關(guān)鍵技術(shù)、知識融合和知識計算的方法,為應(yīng)用于海洋領(lǐng)域的知識圖譜技術(shù)提供合適的方法參考。

      1.2.1 針對海洋領(lǐng)域非結(jié)構(gòu)化數(shù)據(jù)的抽取

      構(gòu)建大型的知識圖譜離不開知識抽取,知識抽取本質(zhì)上就是從異源異構(gòu)的數(shù)據(jù)中提煉出知識并存入知識圖譜中[37]。海洋領(lǐng)域非結(jié)構(gòu)化的數(shù)據(jù)涵蓋政府發(fā)布海洋災(zāi)害文件、海洋生物新聞報道以及海洋類科技文獻等,Wiki百科數(shù)據(jù)由于數(shù)據(jù)量多、覆蓋面廣,因此也是分析的重點。利用命名實體識別技術(shù)、關(guān)系抽取技術(shù)、事件抽取技術(shù)可以從非結(jié)構(gòu)化的數(shù)據(jù)中抽取出相應(yīng)的知識。

      (1)命名實體識別

      命名實體即含有名稱的短語,涵蓋人名、地名、機構(gòu)名、時間以及數(shù)量[38]。海洋領(lǐng)域命名實體識別的關(guān)鍵在于從眾多文本中挖掘出命名實體,諸如海洋生物名稱、地理位置、時間和日期等,并將這些信息分配至預(yù)先定義的類別中。如圖4所示,給定一句文本數(shù)據(jù)“藍鯨主要分布于南極海域,以磷蝦和浮游動物為食”,其中“藍鯨”“磷蝦”“浮游動物”歸屬為名稱類型實體,而“南極海域”歸屬為地理位置類型的實體。命名實體識別技術(shù)可分為基于規(guī)則、基于統(tǒng)計模型以及基于深度學(xué)習(xí)三種[39]。

      圖4 實體抽取舉例Fig.4 Entity extraction example

      基于規(guī)則的技術(shù)涉及到大量人工規(guī)則的制訂,高度依賴規(guī)則的準(zhǔn)確性,因此規(guī)則制定人員局限于特定領(lǐng)域?qū)<遥诿鎸^大數(shù)據(jù)集時,構(gòu)建周期較為漫長且可移植性差,不如基于統(tǒng)計模型與基于深度學(xué)習(xí)的技術(shù)較為常用。

      ②基于統(tǒng)計模型

      基于統(tǒng)計模型的技術(shù)囊括了隱馬爾可夫模型(hidden Markov model,HMM),條件馬爾可夫模型(conditional Markov model,CMM)、條件隨機場模型(conditional random fields,CRF)與最大熵模型(maximum entropy model,MEM)。其中HMM模型和CRF模型在實體抽取方面最為常用,這兩種模型采用標(biāo)注過的語料對模型進行訓(xùn)練,能夠在當(dāng)前輸入特征與先前預(yù)測標(biāo)簽之間建立相互依賴關(guān)系,使得模型一步步修正。

      HMM模型[40]如圖5所示,其結(jié)構(gòu)為有向圖,本質(zhì)為概率模型,在統(tǒng)計學(xué)習(xí)模型的應(yīng)用中包含可觀測序列和隱藏狀態(tài)序列,在一段語句中,可被觀察到的語句稱為可觀測序列,而起潛在表達作用的就是隱藏狀態(tài)序列,在命名實體識別應(yīng)用中,詞標(biāo)注序列和待標(biāo)注的觀測序列對應(yīng)可觀測序列與隱藏狀態(tài)序列。其中隨機變量x t為t時刻的詞標(biāo)注,隨機變量y t為t時刻的待標(biāo)注觀測值,箭頭表示條件依賴關(guān)系。HMM模型有兩個基本假設(shè):

      圖5 HMM模型結(jié)構(gòu)與線性鏈CRF模型結(jié)構(gòu)Fig.5 HMM model structure and linear chain CRF model structure

      假設(shè)1 HMM模型具有明顯的相關(guān)性,在任意t時刻的標(biāo)注信息僅且只依賴t-1時刻的標(biāo)注信息。

      假設(shè)2針對任意t時刻的待標(biāo)注數(shù)據(jù)僅且只依賴t時刻的馬爾可夫鏈狀態(tài)信息。可以看出HMM高度注重依賴關(guān)系。

      鄭鵬[41]針對海洋季風(fēng),構(gòu)建了季風(fēng)專用HMM模型,較早地將HMM模型引入了海洋領(lǐng)域。但因HMM模型僅與狀態(tài)及其對應(yīng)的觀察對象相關(guān),故難以避免地忽視了觀測序列長度信息以及語句信息的上下文等重要信息。

      CRF模型[42]規(guī)避了HMM模型苛刻的假設(shè)條件,因此能夠囊括任意位置的上下文信息,在一定程度上針對HMM模型的不足做了彌補。CRF模型其實質(zhì)是一個條件概率模型,利用給定輸入標(biāo)記序列來預(yù)測待標(biāo)記的觀測序列,通過給定的數(shù)據(jù)訓(xùn)練集,該模型利用極大似然估計生成條件概率模型。在對新數(shù)據(jù)進行標(biāo)注時,給定輸入序列y,模型輸出使P(z|y)該條件概率最大的z。

      在海洋領(lǐng)域中,命名實體識別技術(shù)很少只采用統(tǒng)計學(xué)模型的方法進行,一方面原因就是只采用統(tǒng)計學(xué)模型進行實體抽取往往精度不高,再者就是伴隨著深度學(xué)習(xí)技術(shù)的愈發(fā)成熟,更多學(xué)者選擇將統(tǒng)計模型和深度學(xué)習(xí)方法綜合起來,達到省去人工定義特征和一些外部資源的效果。

      ③基于深度學(xué)習(xí)

      2016年起,針對神經(jīng)網(wǎng)絡(luò)的研究成果迎來了高產(chǎn)期,因其網(wǎng)絡(luò)中包含許多隱藏層與隱藏節(jié)點,使得神經(jīng)網(wǎng)絡(luò)具有出色的表達能力以及對數(shù)據(jù)的擬合能力,因此也普遍應(yīng)用在了自然語言處理(natural language processing,NLP)領(lǐng)域[43],命名實體識別也得益于此,有了進一步發(fā)展。其典型代表包含卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和融合注意力機制的神經(jīng)網(wǎng)絡(luò)[44]。2016年Lample等人[45]提出BiLSTM-CRF模型,率先將統(tǒng)計模型與深度學(xué)習(xí)技術(shù)相融合應(yīng)用于命名實體識別,如圖6,應(yīng)用雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long shotterm memory neural network,BiLSTM)將每個詞的左側(cè)l n、右側(cè)r n向量進行連接,構(gòu)成詞的向量c n輸出給CRF層后,再由CRF層標(biāo)注句子中的實體。與單一CRF相比,能夠引入與單個詞相關(guān)的左右含義,進一步提高了標(biāo)注的精準(zhǔn)度。

      圖6 BiLSTM-CRF結(jié)構(gòu)圖Fig.6 BiLSTM-CRF structure diagram

      Ma等人[46]在BiLSTM-CRF模型的基礎(chǔ)上又引入了卷積神經(jīng)網(wǎng)絡(luò),提出了BiLSTM-CNNs-CRF模型,相較于前一模型,該模型通過在嵌入層引入CNN來從單詞字符中提取詞形信息,并將提取的信息編碼為能被機器開發(fā)的神經(jīng)表征,能夠解決當(dāng)前深度學(xué)習(xí)中過于依賴領(lǐng)域知識和手工定義特征的問題。如圖7,用于實體識別的CNN[47]是將字符嵌入經(jīng)過Dropout抑制過擬合后再進行卷積,通過最大值池化處理降低特征向量的大小,再生成字符級的向量表示。這種在嵌入層的處理方式不再基于標(biāo)注數(shù)據(jù),能自動化抽取相關(guān)實體并且能夠最大化地提取實體特征,使得F1值進一步提高。

      圖7 CNN神經(jīng)表征生成圖Fig.7 CNN neural representation generation map

      賀琳等人[48]為解決外來海洋生物實體識別效果較差的問題,在前兩個模型的基礎(chǔ)上,為了減少參數(shù)量,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),將BiLSTM模塊替換為雙向門控循環(huán)單元(bidirectional gated recurrent unit,BiGRU),提出了CNN-BiGRU-CRF模型。由于注意力機制借鑒了人類對不同事物的關(guān)注度不同,因此引入注意力機制可以有選擇地重視部分關(guān)鍵信息,而相應(yīng)忽視同時接收到的其他信息[49],將其引入文本處理中可以賦予重點文本較高權(quán)重,而相應(yīng)減少其他文本權(quán)重。賀琳等人在Bi GRUCRF層中采用了圖8所示的融合注意力機制(attention mechanism,AM)[50]的向量組合方法。模型先通過BiGRU學(xué)習(xí)和表示外來生物文本級別數(shù)據(jù)的上下文信息,再利用注意力機制來獲取海洋生物實體的重點語義特征,能夠避免文本數(shù)據(jù)中的長距離依賴問題,提高了海洋生物的實體識別準(zhǔn)確度,也為今后海洋生物、概念等信息識別提供了參考借鑒。

      圖8 融合AM的詞向量與字符級向量結(jié)構(gòu)Fig.8 Combining AM’s word vector and characterlevel vector structure

      因為注意力機制更依賴外在因素,He等人[51]將圖9所示的多頭自注意力機制引入中國海洋文本數(shù)據(jù)的實體識別中,利用知識圖嵌入向量和BiLSTM的輸出向量共同作為自注意力機制的輸入向量,同時兼顧了特征的內(nèi)部相關(guān)性和長序列依賴關(guān)系,進一步提高了外來海洋生物實體識別的準(zhǔn)確度,提升了對語料庫的實體識別能力。在海洋數(shù)據(jù)上的出色應(yīng)用也進一步明確了多頭注意力機制在海洋領(lǐng)域的使用前景。

      圖9 多頭注意力機制結(jié)構(gòu)Fig.9 Multi-head attention mechanism structure

      ④海洋領(lǐng)域命名實體識別難點及技術(shù)分析

      相較于通用的實體識別,海洋領(lǐng)域的部分名詞實體過長,例如魚類“魏氏小公魚”與“西伯利亞多棘牛尾魚”等,其中“魏氏”“小公魚”“西伯利亞”“牛尾魚”等又是一個獨立的實體單位,這就造成了長實體中往往會包含多個短實體,因此海洋領(lǐng)域?qū)嶓w邊界較為模糊,識別難度大。再者,如“新月錦魚”又稱“青衣魚”“花面龍”“花面綠龍”等,海洋生物的別稱較多,同種物體別稱可達數(shù)種,也進一步增加了實體識別的難度。另一就是數(shù)據(jù)的質(zhì)量問題,標(biāo)注海洋領(lǐng)域?qū)嶓w數(shù)據(jù)對專業(yè)素質(zhì)要求嚴(yán)苛,因此利用未標(biāo)注數(shù)據(jù)訓(xùn)練模型來進行實體識別就顯得尤為重要。

      如表2所示,可以看出在小規(guī)模數(shù)據(jù)集上,手工編寫規(guī)則依靠人力進行,因而可以考慮到海洋生物數(shù)據(jù)的多種指代現(xiàn)象,其精準(zhǔn)度更高。然而這種方法要求規(guī)則編寫者對海洋數(shù)據(jù)有相當(dāng)程度的了解,而且構(gòu)建規(guī)則費時費力,故僅局限于小規(guī)模簡單數(shù)據(jù)集。HMM模型以及CRF模型能夠節(jié)省人力成本,但對于序列文本的上下文信息獲取乏力,在丟失了上下文可能對當(dāng)前實體識別數(shù)據(jù)造成的影響后,容易造成實體的識別誤差,但上下文數(shù)據(jù)不可能對后續(xù)所有實體識別都造成影響,因此也要避免當(dāng)前的實體不受較長時間的狀態(tài)的干擾。BiLSTM-CRF模型能夠解決當(dāng)前狀態(tài)被很長時間前狀態(tài)影響的問題,CNN-BiGRU-CRF模型和BiLSTM-MultiAtt-CRF模型則是在BiLSTM-CRF的基礎(chǔ)上對內(nèi)外依賴關(guān)系做出了調(diào)整。在海洋類數(shù)據(jù)集較小且短序列文本居多時,可以采用CRF以及融合BiLSTM與CRF的模型,因其網(wǎng)絡(luò)結(jié)構(gòu)簡單,能夠有效地提升運行速度。當(dāng)需要處理較大規(guī)模海洋數(shù)據(jù)且存在長序列復(fù)雜關(guān)系時,CNNBiGRU-CRF模型能夠在更為輕量化的網(wǎng)絡(luò)結(jié)構(gòu)中處理數(shù)據(jù),更加適合這種大型數(shù)據(jù)的處理,當(dāng)需處理的海洋類數(shù)據(jù)對精度較為敏感時,可以采用BiLSTM-Multi-Att-CRF模型,有效捕捉特征的內(nèi)部相關(guān)性,進一步提升結(jié)果精準(zhǔn)度。

      表2 命名實體識別方法優(yōu)缺對比表Table 2 Comparison of advantages and disadvantages of named entity recognition methods

      (2)關(guān)系抽取

      海洋數(shù)據(jù)語料在通過實體抽取后,生成一些離散的命名實體,為能夠獲取語義方面的信息,需從對應(yīng)文本語料中捕獲實體內(nèi)的存在的相互關(guān)系,利用這種相互關(guān)系將實體與對應(yīng)關(guān)系關(guān)聯(lián)起來,最終構(gòu)成網(wǎng)狀的結(jié)構(gòu)數(shù)據(jù)[52]。作為NLP的重點內(nèi)容之一,關(guān)系抽取目的在于發(fā)現(xiàn)給定的非結(jié)構(gòu)化數(shù)據(jù)中實體對間的首尾關(guān)系,其方法可分為模板匹配法、監(jiān)督學(xué)習(xí)法與弱監(jiān)督學(xué)習(xí)法。

      ①手工模板匹配

      早期利用手工建立模板匹配的方法可以對簡單的小規(guī)模數(shù)據(jù)做到快速抽取,例如對“藍鯨分布于南極海域?!边M行模板化處理可以得到“X分布于Y?!边\用該模板進行文本數(shù)據(jù)匹配就可捕獲到含有“分布”關(guān)系的實體。但由于海洋類數(shù)據(jù)集較大,關(guān)系錯綜復(fù)雜,且手工構(gòu)建需要海洋領(lǐng)域?qū)<揖邆湟欢ǖ恼Z言學(xué)基礎(chǔ),同時又要求對NLP領(lǐng)域有著深層次的理解,制定難度較大,因此鮮有海洋類數(shù)據(jù)關(guān)系依托手工模板進行抽取。

      ②基于監(jiān)督學(xué)習(xí)

      基于監(jiān)督學(xué)習(xí)的關(guān)系抽取避免了手工制訂模板的短板,利用大量標(biāo)注數(shù)據(jù)來訓(xùn)練模型后對特定關(guān)系進行匹配識別與抽取。在深度學(xué)習(xí)中,關(guān)系抽取被等同于分類進行處理,Zeng等人[53]率先將CNN用于關(guān)系分類,將單詞轉(zhuǎn)換為向量,參照輸入詞匯進行詞級特征抽取,同時采用CNN進行語句級特征的捕獲,將詞級特征與句子級特征進行簡單拼接并運用激活函數(shù)得到最終結(jié)果,由于兼顧考慮了詞匯與語句的特征,在關(guān)系分類中優(yōu)于當(dāng)時最為先進的方法。

      雖然這種關(guān)注位置特征的模型有其優(yōu)越性,但將重點放在位置特征上時忽視了一些起著關(guān)鍵作用的信息。為解決這一問題,Wang等人[54]提出Attention CNNs模型,把成熟的注意力機制融合到CNN中,經(jīng)過在輸入層融入詞與實體關(guān)聯(lián)的注意力并在池化層中融合目標(biāo)關(guān)系的注意力這兩種針對性的方式,有效提升關(guān)系抽取的精度。

      隨著預(yù)處理模型Bert在NLP分類任務(wù)上取得顯著的提升效果,Wu等人脫離了CNN架構(gòu),首先將預(yù)處理模型用于關(guān)系分類,提出了一個結(jié)合目標(biāo)信息與預(yù)訓(xùn)練Bert模型的新模型[55]。如圖10,該模型在目標(biāo)實體前后插入用以識別特定目標(biāo)實體的特殊標(biāo)記,再將處理過的文本輸入Bert預(yù)訓(xùn)練模型中進行參數(shù)微調(diào),最后利用Bert模型的輸出嵌入以及句子編碼作為多層神經(jīng)網(wǎng)絡(luò)的輸入進行分,該模型能夠兼顧獲取語句以及實體間的語義關(guān)系,在SemEval-2010 task 8數(shù)據(jù)集上得到了最為先進的成果。預(yù)處理模型不僅在關(guān)系分類上表現(xiàn)不俗,在各個方面應(yīng)用也較為廣泛,但目前在海洋領(lǐng)域還鮮有預(yù)處理模型的應(yīng)用,這也是以后的研究趨勢之一。

      圖10 預(yù)處理模型用于關(guān)系抽取Fig.10 Preprocessing model for relation extraction

      盡管監(jiān)督學(xué)習(xí)法在關(guān)系抽取中產(chǎn)生了很大的效用,但因監(jiān)督學(xué)習(xí)需要大批量的訓(xùn)練數(shù)據(jù),面對小批量數(shù)據(jù)時無法產(chǎn)生很好的效果。無監(jiān)督學(xué)習(xí)的方法可解釋性差,缺乏比較客觀的評價指標(biāo),其優(yōu)勢在于無需人工標(biāo)注數(shù)據(jù)且可以忽略實體對所蘊含的領(lǐng)域知識,但不適用于海洋領(lǐng)域。采用弱監(jiān)督學(xué)習(xí)的關(guān)系抽取融合了監(jiān)督學(xué)習(xí)以及無監(jiān)督學(xué)習(xí)的長處,能夠只運用小批量標(biāo)注信息實現(xiàn)模型的訓(xùn)練,主要采用遠程監(jiān)督方法,該方法更為依賴現(xiàn)存知識庫的知識信息。

      早在2009年,Mintz等人[56]為應(yīng)對訓(xùn)練樣本不足的情況,在關(guān)系抽取中結(jié)合了遠程監(jiān)督的方法,其實質(zhì)是利用現(xiàn)有知識庫自動標(biāo)注大規(guī)模訓(xùn)練數(shù)據(jù)。通過從Wikipedia等知識集合中提取出蘊含關(guān)系的實體對當(dāng)作抽取標(biāo)準(zhǔn),再從非結(jié)構(gòu)性的語料中提取出此標(biāo)準(zhǔn)的語句當(dāng)作訓(xùn)練樣本,將該訓(xùn)練樣本用于模型的訓(xùn)練后再進行關(guān)系的提取。這種通過知識圖譜自動對齊語料來獲取大量標(biāo)注數(shù)據(jù)進行模型訓(xùn)練的方式有效減少了人工的主觀干預(yù),但訓(xùn)練數(shù)據(jù)集之中含有大批量噪聲,這就使得一些語義出現(xiàn)有誤標(biāo)注。

      為解決這一問題,Zeng等人[57]將CNN關(guān)系抽取模型運用于遠程監(jiān)督語料中,提出分段卷積神經(jīng)網(wǎng)絡(luò)(piecewise convolutional neural networks,PCNNs),將遠程監(jiān)督關(guān)系的抽取視作多實例問題,由未知標(biāo)簽的實例組成多個包,再由已知標(biāo)簽的眾多包組成訓(xùn)練集。一定程度上保證了實體句子與知識庫中關(guān)系的對應(yīng),提高了關(guān)系抽取的精度。

      Ji等人[58]基于PCNNs模型,將PCNNs融合注意力機制,提出了APCNNs模型,通過句子層級的注意力模型在同一實體對的實例包中選取多個實例來最大化利用有效信息,相較于PCNNS性能有所提升。但其實質(zhì)是引入實體對的描述來改進關(guān)系抽取能力,相對文本句等形式缺乏了上下文關(guān)系。

      Qin等人[59]另辟蹊徑,將生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)用于穩(wěn)健的遠程監(jiān)督關(guān)系抽取,通過對抗性訓(xùn)練提高模型的魯棒性,提出了DSGAN模型,相較于APCNNs在t檢驗中P值有了明顯提升。但由于Qin等人只對遠程監(jiān)督的關(guān)系抽取模型的噪聲加以控制,來達到抑制訓(xùn)練集中噪聲的影響,還是會存在一定量的錯誤標(biāo)簽數(shù)據(jù)。

      Feng[60]與Zheng等人[61]利用強化學(xué)習(xí)(reinforcement learning,RL)的環(huán)境交互性,對比遠程監(jiān)督的已標(biāo)記數(shù)據(jù)標(biāo)簽和模型預(yù)測數(shù)據(jù)標(biāo)簽的差異性來學(xué)習(xí)更正錯誤標(biāo)簽。與之前的PCNNs和APNNs著重實體對的描述不同,強化學(xué)習(xí)以文本句為單位,有效提升了在語句層面的關(guān)系分類性能。這種方式同樣也適應(yīng)于數(shù)據(jù)量較少的非結(jié)構(gòu)化海洋數(shù)據(jù),利用一系列相關(guān)文本文件,結(jié)合GAN或者強化學(xué)習(xí)來降低數(shù)據(jù)集噪聲,達到抽取實體間關(guān)系的目的。

      ②海洋領(lǐng)域關(guān)系抽取難點及技術(shù)分析

      不同于通用領(lǐng)域的實體關(guān)系抽取,海洋領(lǐng)域由于數(shù)據(jù)的特殊性,為保證關(guān)系抽取的精度,大多采用監(jiān)督學(xué)習(xí)的方式進行,因而對于技術(shù)人員的海洋領(lǐng)域知識要求較高。另一方面,當(dāng)海洋數(shù)據(jù)橫跨多個子領(lǐng)域時,會造成關(guān)系間跨度過大,普通關(guān)系抽取方法難以為繼等問題。

      關(guān)系抽取的精度高度依靠于數(shù)據(jù)集的規(guī)模,如表3所示,手工模板匹配能夠在小規(guī)模簡單數(shù)據(jù)集中表現(xiàn)出色,但專業(yè)性人力的占用是不能夠避免的缺陷。CNNs模型可以在通用語義評測數(shù)據(jù)集上捕獲遠距離特征,并且節(jié)省了人力資源,能夠?qū)嶓w關(guān)系做到高效抽取。當(dāng)需要進行關(guān)系抽取的海洋類數(shù)據(jù)集規(guī)模較小且數(shù)據(jù)量較少時,可應(yīng)用CNNs模型對實體間的關(guān)系進行提取,但由于模型結(jié)構(gòu)簡單,不能夠?qū)ι顚哟蔚年P(guān)系有效的識別,Attention CNNs應(yīng)運而生,極大提升了關(guān)系抽取的精確度,并由于引入注意力機制,能夠?qū)M跨子領(lǐng)域的實體起到不錯的識別作用。隨著Bert模型在NLP領(lǐng)域內(nèi)出色的表現(xiàn),大量學(xué)者將其運用到關(guān)系抽取中來,這種預(yù)處理模型適用性非常強,但同時也對數(shù)據(jù)集的規(guī)模做出了嚴(yán)苛要求,小型數(shù)據(jù)集很容易過擬合,PCNNs、APCNNs、DSGAN也是如此。強化學(xué)習(xí)方法比前幾種方法具備更強的適用性,由于不依賴模型,因此能夠適用于絕大部分神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),目前鮮有在海洋類數(shù)據(jù)集上的應(yīng)用,這也是未來有待探究的方向。

      表3 關(guān)系抽取方法優(yōu)缺點對比表Tab.3 Comparison table of advantages and disadvantages of relation extraction methods

      (3)事件抽取

      事件即實際發(fā)生的事實,一般情況下包含時間、地點、人物等屬性信息[62],例如海洋災(zāi)害、海洋科技新聞等。事件抽取旨在從一系列非結(jié)構(gòu)化類型的數(shù)據(jù)中提取出靶用戶關(guān)注的事情,并輔以結(jié)構(gòu)化形式表現(xiàn)出來,其依賴于實體識別與關(guān)系抽取的提取結(jié)果。

      Ahn等人[63]將事件抽取流程進行了標(biāo)準(zhǔn)化制定,首先依據(jù)最能夠準(zhǔn)確表達事件發(fā)生的關(guān)鍵詞為觸發(fā)詞識別出文本中蘊含的事件及類型,再從文本句中抽取出參與一個具體事件的元素并判斷其與參與事件的關(guān)系,接著提取出描述事件的詞匯或文本句后對事件進行屬性標(biāo)注和指代消解。通過以上的事件抽取方法,能夠完成關(guān)于文本事件信息的自動提取。例如圖11中,對給定的非結(jié)構(gòu)化數(shù)據(jù)運用事件抽取技術(shù),可以將其生成事件類型、時間、地點以及結(jié)果等結(jié)構(gòu)化數(shù)據(jù)。但是這種將事件抽取建模成多分類問題的流水線式方法由于各階段子任務(wù)相互獨立,會難以防止誤差累積傳遞現(xiàn)象的發(fā)生,使事件抽取的效果大打折扣。

      圖11 事件抽取示例Fig.11 Event extraction example

      ①基本模型

      Li等人[64]為解決這一問題,提出了一種聯(lián)合模型,將事件中所有關(guān)聯(lián)信息利用同一模型一起抽取,兼具了局部特征和全局特征,避免了累積誤差對事件抽取造成的性能影響。但這種模型不僅需要人工來設(shè)計特征,還需借助外部工具抽取事件句的特征。

      Chen等人[65]提出了動態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)(dynamic multi-pooling convolutional neural networks,DMCNN)模型,該方法可以在不使用復(fù)雜外部工具的條件下,進行詞匯級以及語句級特征的自動捕捉,并通過動態(tài)的多層池化卷積保留了多事件句中的重要信息,最大程度上捕捉了事件中的關(guān)鍵特征。

      ②混合處理模型

      在Li等人成功將預(yù)處理模型用于關(guān)系抽取的同年,Tian等人[66]將Bert預(yù)處理模型用于事件抽取,將Bert模型與BiLSTM層和CRF結(jié)構(gòu)相融合,此新模型能夠?qū)蝹€事件進行雙向分析并兼顧對多事件信息運用關(guān)聯(lián)分析,這種方式不僅能夠獲取參數(shù)間的聯(lián)系,還可以捕捉到不同事件之間的共有關(guān)系。在F1-Score上相較于其他模型精進了4%~6%。這種引入預(yù)處理模型的方法雖然效果出眾,但需要大量的標(biāo)注訓(xùn)練數(shù)據(jù),在利用大量數(shù)據(jù)對預(yù)處理模型進行微調(diào)后模型才能發(fā)揮最大的效果。

      Zhang等人[67]基于聯(lián)合事件與關(guān)系抽取提出了一個聯(lián)合抽取的新方法,與Tian等人聯(lián)合Bert、BiLSTM、CRF相同的是,Zhang等人也采用BiLSTM學(xué)習(xí)事件關(guān)系。不同的是,如圖12所示,Zhang引入注意力機制來獲得事件文本句中的重要特征,將事件檢測與關(guān)系抽取以迭代的方式交互學(xué)習(xí),逐漸提高模型的性能,在較低資源配置的情況比以往方法取得了F1-Score精進1.6%~1.8%的效果。這些方法在海洋領(lǐng)域事件抽取時給出了一些啟發(fā),當(dāng)海洋類型語料庫較大,已標(biāo)記事件文本句較為充足的條件下,Tian等人的方法更勝一籌,精度最高且事件抽取效果最好。在海洋類型數(shù)據(jù)量較少,缺乏一定程度的標(biāo)記數(shù)據(jù)時,Zhang等人的事件抽取表現(xiàn)效果最佳。

      圖12 小規(guī)模數(shù)據(jù)抽取模型Fig.12 Small-scale data extraction model

      ③海洋領(lǐng)域事件抽取難點及技術(shù)分析

      海洋領(lǐng)域事件型數(shù)據(jù)以海洋災(zāi)害報告、海洋科技介紹等為主,使得海洋事件信息的來源具有局限性,可用資源較少。另外海洋數(shù)據(jù)中多有代指現(xiàn)象,譬如臺風(fēng)“杜鵑”,因此有可能會出現(xiàn)同一事件中實體名稱相同但指代對象不同的情況。最后,海洋領(lǐng)域多個事件之間可能產(chǎn)生聯(lián)系,譬如臺風(fēng)運動軌跡事件與臺風(fēng)災(zāi)害事件,加大了事件抽取的難度。

      在事件抽取中,如表4所示,當(dāng)事件內(nèi)無聯(lián)系或者存在弱聯(lián)系時,通用的標(biāo)準(zhǔn)化方法就可以完成對事件的抽取,但這種方法無法解決海洋領(lǐng)域事件內(nèi)同一名稱實體的多種指代問題,DMCNN模型則能夠很好地捕捉多事件句中的重要特征。但以上方法適用數(shù)據(jù)集較為局限,Bert-BiLSTM-CRF模型與BiLSTM-Att模型能夠很好地對事件內(nèi)和多個事件間的聯(lián)系進行有效抽取,可以應(yīng)用于海洋類數(shù)據(jù)集。當(dāng)海洋類數(shù)據(jù)集較大時,利用Bert-BiLSTM-CRF模型進行事件的抽取可以獲得更高的準(zhǔn)確度,而當(dāng)海洋類數(shù)據(jù)集較小時,利用BiLSTM-Att模型可以解決標(biāo)注數(shù)據(jù)不足的問題,使得在小規(guī)模海洋數(shù)據(jù)集的應(yīng)用上表現(xiàn)突出。

      表4 事件抽取方法優(yōu)缺對比表Table 4 Comparison table of advantages and disadvantages of event extraction methods

      1.2.2 針對海洋領(lǐng)域半結(jié)構(gòu)化數(shù)據(jù)的抽取

      非結(jié)構(gòu)化的數(shù)據(jù)在一定程度上造成了知識抽取的復(fù)雜性,隨著Wikipedia、網(wǎng)頁等百科類及網(wǎng)頁數(shù)據(jù)的發(fā)展,一些半結(jié)構(gòu)化類型的數(shù)據(jù)愈來愈豐富,由于半結(jié)構(gòu)化數(shù)據(jù)類型較為特別,雖然與數(shù)據(jù)表的模式結(jié)構(gòu)不一致,但涵蓋了能夠區(qū)分語義類型的相關(guān)標(biāo)識,并且可以分割記錄以及字段,因此也催生了相關(guān)知識抽取技術(shù)的應(yīng)用。

      (1)百科類數(shù)據(jù)抽取

      以Wiki百科為典型代表知識數(shù)據(jù)庫,不僅數(shù)據(jù)量龐大,且由于采用了質(zhì)量控制機制,因此在數(shù)據(jù)海量發(fā)展的同時還能在一定程度上保證了信息的準(zhǔn)確性,普遍作為建立大型知識圖譜的關(guān)鍵數(shù)據(jù)來源[68]。當(dāng)前大型且高度完善的知識庫如Yago[69]與DBpedia[70]等旨在從Wiki百科中抽取數(shù)據(jù)進行半自動或自動化構(gòu)建。其中Yago知識庫從Wiki百科中抽取眾多類型與信息框,并融合面向語義類型的英文詞典WordNet,對知識的抽取具有相當(dāng)程度的精準(zhǔn)性與高效性,但Yago的知識抽取面對已定義好的文本范圍以及語義關(guān)系時無法起到很好的效果[71],DBpedia直接從Wiki百科詞條信息框中抽取出的結(jié)構(gòu)化信息作為實體屬性與實體關(guān)系[72],彌補了Yago知識庫的不足。而且為了解決以上抽取方式所造成的不同表達實體名稱具有相同語義關(guān)系的問題,DBpedia使用了基于映射的抽取方式,將信息框中的模板以及屬性信息映射到手工定義的本體類型與本體屬性中,利用本體詞匯相關(guān)信息提取出結(jié)構(gòu)化的信息,保證了數(shù)據(jù)的高度準(zhǔn)確性。

      王蘭等人[73]利用Wiki百科數(shù)據(jù)構(gòu)建了一個關(guān)于漁業(yè)的知識庫,同時提取Wiki頁面的魚類實體標(biāo)題與對應(yīng)的URLs歸入MySQL數(shù)據(jù)庫作為主要信息來源,并利用相關(guān)魚類實體摘要作為補充介紹,再通過實體消歧的技術(shù)來剔除冗余文本,構(gòu)建了一個漁業(yè)知識庫。這種Wiki頁面信息的提取一般采用爬蟲的方式提取,通過編輯規(guī)則代碼,收集百科類數(shù)據(jù),能夠做到高效提取,但是后續(xù)的數(shù)據(jù)整理也離不開人工,且由于百科類數(shù)據(jù)條目的構(gòu)建大多不是來自于權(quán)威專家,因此在利用百科類數(shù)據(jù)進行抽取時其數(shù)據(jù)信息的準(zhǔn)確性高度依賴百科本身,這就限制了百科數(shù)據(jù)的選擇范圍。

      (2)Web頁面數(shù)據(jù)抽取

      與百科類數(shù)據(jù)相同的是,部分網(wǎng)頁也具備了大量的半結(jié)構(gòu)化的數(shù)據(jù),通過人工法、包裝器歸納法以及自動抽取法可以從指定Web頁面中提取出所需知識信息[74]。人工方法需要編寫出適合指定抽取頁面的提取表達式,優(yōu)勢在于能夠精準(zhǔn)化控制抽取信息,但局限于一個Web頁面,對新頁面進行知識提取時還需要重新編輯表達式。歸納方法在多頁面上的抽取能力有所提升,利用監(jiān)督學(xué)習(xí)方法從人工標(biāo)注的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識提取的規(guī)則,并應(yīng)用于相同布局的Web頁面,省去了比重較大的手工代碼編輯時間。但這種方法不適用于類似布局的Web頁面,且需要大量人工標(biāo)注數(shù)據(jù),普適性較差。自動抽取方法無須人工的參與,將布局相似的Web頁面聚類為一組,捕獲組內(nèi)的共有布局方式,可以生成針對該類Web頁面的包裝器,將需要抽取數(shù)據(jù)的Web頁面分配至對應(yīng)的包裝器就可以對知識數(shù)據(jù)進行高效抽取。

      海洋類數(shù)據(jù)百科多集中在海洋生物、島嶼等方面,分類較為詳盡具體,但數(shù)據(jù)可能存在質(zhì)量問題且層次深度不夠。結(jié)合NOAA、國家海洋科學(xué)數(shù)據(jù)中心及中國海島網(wǎng)等國際數(shù)據(jù)網(wǎng)站中的科研數(shù)據(jù)就能夠做到信息的準(zhǔn)確性與深度性。

      1.2.3 知識融合

      在經(jīng)過知識的抽取后,雖然獲取了大量數(shù)據(jù),但這些數(shù)據(jù)缺少邏輯關(guān)聯(lián)以及存在著數(shù)據(jù)冗余、錯誤等情況,再者又因數(shù)據(jù)來源的差異,不可避免地會產(chǎn)生多個知識圖譜。知識融合主要側(cè)重于剔除無用信息,并將不同數(shù)據(jù)源但擁有相同實體及關(guān)系的散亂信息整合在一起形成一個龐大的知識庫[75]。以下將闡述知識融合的關(guān)鍵技術(shù):實體鏈接與知識合并。

      (1)實體鏈接

      實體鏈接旨在識別出非結(jié)構(gòu)化數(shù)據(jù)中的實體,并匹配到知識庫中的相應(yīng)實體,一般化流程[76]分為:

      實體指稱識別:利用前文所述的命名實體識別技術(shù)從結(jié)構(gòu)化數(shù)據(jù)如文本中提取實體指稱項,其中按照自動內(nèi)容抽?。╝utomatic content extraction,ACE)闡述的定義,實體指稱項共有命名性指稱、名詞性指稱以及代詞性指稱項三類。

      備選實體生成:確定文本數(shù)據(jù)中提取的實體指稱有可能指向的實體集合。

      備選實體消歧:對存在重名的實體指稱項應(yīng)用歧義消除,并對多個實體對象均指代相同實體的情況進行指代消解。

      知識庫鏈接:將處理后的實體匹配到知識庫中與之對照的實體。

      ①指稱識別與備選實體生成

      實體指稱識別就是將所需的實體在文本中進行匹配識別,但一個實體指稱或許不僅與知識庫中一個實體相匹配,會存在一對多的情況,例如“海豚”也對應(yīng)“海狶”“海豬仔”等。備選實體生成的任務(wù)就是確定文本中的實體指稱可能對應(yīng)的全部實體集合[77],可以從以下方面來進行:

      實體名稱擴展:許多實體名稱為縮略詞或關(guān)鍵信息詞,因而可以從實體名稱出現(xiàn)的相關(guān)文本中識別出可能存在。通常有模式匹配算法以及監(jiān)督學(xué)習(xí)法,其中模式匹配是利用實體的中涉及的縮寫作為其擴展的形式,而監(jiān)督學(xué)習(xí)法則是利用相關(guān)機器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)抽取更為復(fù)雜的縮寫以及關(guān)鍵信息詞表示。

      網(wǎng)絡(luò)實體候選:利用文本存在的實體指稱作為關(guān)鍵匹配信息,通過網(wǎng)絡(luò)引擎或百科搜索獲取得到更多的候選實體信息。實體的候選或者說備選,實際上是文本實體指稱的變體,可能擁有不同的實體名稱,但候選實體的含義與文本實體一致。

      實體查詢表:實際上是根據(jù)百科類網(wǎng)站提供的信息進行信息抽取并生成一個涉及實體提及以及實體的引用表。

      ②備選實體消歧

      當(dāng)文本數(shù)據(jù)中的實體指稱以及備選的實體被確定后,需要消除備選實體其歧義性,本質(zhì)上解決的是實體的重名性和多義性,其做法是利用一些消歧的技術(shù)將每一個實體指稱與確定的實體相對應(yīng)[78]。本文探究了當(dāng)下最為先進的幾種方法,并技術(shù)上將其分為深度學(xué)習(xí)應(yīng)用法、圖結(jié)構(gòu)應(yīng)用法和預(yù)處理模型應(yīng)用法。

      目前針對實體消歧的數(shù)據(jù)多集中在長文本數(shù)據(jù)方面,因其有著相對完備的上下文數(shù)據(jù),實體的識別和消歧工作相對容易進行,因此針對長文本,Phan等人[79]探究了采用深度學(xué)習(xí)解決實體消歧的可行性,融合LSTM以及注意力機制,提出了NeuPL模型。如圖13所示,該網(wǎng)絡(luò)采用雙向的LSTM捕獲實體提及的左文本信息及右文本信息,利用注意力機制突出實體描述信息和實體ID,再對實體提及的上下文進行反饋調(diào)節(jié),在Gerbil基準(zhǔn)平臺7種不同類型的數(shù)據(jù)集上均取得了領(lǐng)先。

      圖13 結(jié)合Attention與LSTM的消歧網(wǎng)絡(luò)結(jié)構(gòu)Fig.13 Disambiguation network structure combining Attention and LSTM

      但NeuPL模型只捕獲了實體提及左右文本句的信息,忽視了全局信息。Hu等人[80]為彌補全局信息的確實,探究了基于端到端思想的消歧模型,通過構(gòu)建文檔的異構(gòu)實體圖來建模實體間的全局語義關(guān)系,運用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)在實體提及和備選實體的嵌入過程中對同一文檔中備選實體的全局語義進行了編碼,再經(jīng)過條件隨機場來執(zhí)行實體消歧處理,這種方式能夠做到全局信息的利用,在2020年Gerbil基準(zhǔn)測試中達到了最先進的性能。

      短文本數(shù)據(jù)相較于長文本數(shù)據(jù),缺乏完善的上下文信息,而且表述信息也不如長文本數(shù)據(jù)準(zhǔn)確,實體的識別難度較大,因此Cheng等人[81]將Bert預(yù)處理模型應(yīng)用于短文本的實體識別與消歧中,利用知識庫對實體的信息進行挖掘來獲得實體的向量嵌入,有效處理了短文本信息量缺乏的弊端,再通過Bert對實體及備選實體的實體名稱識別,將獲得的結(jié)果進行分類預(yù)測,確定概率最大的實體作為最終可信實體,其性能在2019年度全國知識圖譜與語義計算大會上表現(xiàn)卓越。

      ③海洋領(lǐng)域?qū)嶓w鏈接難點及技術(shù)分析

      海洋領(lǐng)域的同一實體可能存在多種指稱,通過網(wǎng)絡(luò)搜索雖然可以解決部分?jǐn)?shù)據(jù)的實體指稱識別問題,但一些專業(yè)化名詞可能需要更具權(quán)威的數(shù)據(jù)來源。另外,海洋文本數(shù)據(jù)相較于通用文本數(shù)據(jù)多有不足,并且海洋部分?jǐn)?shù)據(jù)庫可能無法實時更新,例如海洋生物命名等,因此在數(shù)據(jù)量較少時,采用NeuPL模型反而要優(yōu)于預(yù)處理模型,另外也可采用數(shù)據(jù)增強的方法擴充數(shù)據(jù)集,訓(xùn)練預(yù)處理模型再遷移到下游任務(wù)的方式,也會起到不俗的效果。

      (2)知識合并

      生成的知識庫數(shù)據(jù)可能存在數(shù)據(jù)不完善的情況,可以通過知識合并的方法將第三方的知識庫內(nèi)容或定期更新的結(jié)構(gòu)化數(shù)據(jù)補充進己方構(gòu)建的知識庫中,一方面可以解決知識庫數(shù)據(jù)的單源主觀性,另一方面可以彌補知識庫內(nèi)容缺乏動態(tài)更新性[82]。知識庫的合并可以從外部知識庫與關(guān)系數(shù)據(jù)庫兩個方面進行。

      ①合并外部數(shù)據(jù)庫

      外部數(shù)據(jù)庫主要包括Wiki百科、DBpedia以及YAGO等含有海量數(shù)據(jù)的知識庫,利用前文中涉及的數(shù)據(jù)抽取技術(shù),可以得到多種有效數(shù)據(jù),對這些數(shù)據(jù)的利用可以分為融合數(shù)據(jù)層和模型層兩步[83]。在數(shù)據(jù)層面的融合涵蓋實體指稱、關(guān)系等,其關(guān)鍵是完成實體、關(guān)系間冗余情況的處理,模型層面主要是將融合后的數(shù)據(jù)層融入到現(xiàn)存的知識庫。

      數(shù)據(jù)層面的主要技術(shù)融合可以概括為以下步驟[84]:

      步驟1實體匹配:多源數(shù)據(jù)對于實體名稱及概念的表達可能存在差異性,利用實體匹配統(tǒng)一表達方式以及合并多個相同描述實體可以消除這種差異性,在去除冗余數(shù)據(jù)后能夠使多源數(shù)據(jù)的表達內(nèi)容統(tǒng)一,增強實體的可理解性。

      步驟2知識評估:新增知識可能存在某些問題,為保證知識圖譜內(nèi)知識數(shù)據(jù)的合理性與準(zhǔn)確性,必須對新添數(shù)據(jù)采用準(zhǔn)確性驗證與合理性評估,一般方法是賦予新加入知識可信度來進行篩選。

      步驟3知識合并:經(jīng)以上步驟融合好的數(shù)據(jù)層就融入到現(xiàn)有的知識庫,完成外部數(shù)據(jù)庫的合并。

      ②合并關(guān)系數(shù)據(jù)庫

      在知識庫中,高質(zhì)量的數(shù)據(jù)必不可少,這些數(shù)據(jù)往往來源于自建關(guān)系數(shù)據(jù)庫,通過合并這些數(shù)據(jù),可以使整體知識圖譜的質(zhì)量得到有效提升,在數(shù)據(jù)庫定期更新的情況下,對這些數(shù)據(jù)庫進行周期性合并就可以做到知識圖譜的動態(tài)更新,進一步增加自建知識圖譜的質(zhì)量與新穎性。

      結(jié)構(gòu)化數(shù)據(jù)不可以直接融入知識圖譜中,通過將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為資源描述框架(resource description framework,RDF)的三元組形式可以解決。當(dāng)前能夠?qū)㈥P(guān)系數(shù)據(jù)庫轉(zhuǎn)化為RDF的方法主要分為直接映射與R2RML兩種[85],其中直接映射能夠?qū)㈥P(guān)系數(shù)據(jù)庫與數(shù)據(jù)輸出為RDF圖,采用的是數(shù)據(jù)庫中列表名稱與字段名稱對應(yīng)到RDF圖中類術(shù)語與謂詞術(shù)語,但是這種直接映射的方式無法將數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)映射到用戶自定義的本體上。R2RML映射(RDB to RDF mapping language)其主要是將涵蓋基本表、視圖與R2RML視圖的每一個邏輯表借由三元組映射表映射至RDF,具備了更高的靈活性,并且可以制定用戶自己的映射規(guī)則。

      1.2.4 知識圖譜推理

      通過數(shù)據(jù)的抽取以及知識的融合,可以得到現(xiàn)有數(shù)據(jù)的知識圖譜,但此時的知識圖譜尚不健全,其中的大量數(shù)據(jù)可以被二次開發(fā),知識推理的任務(wù)就是從現(xiàn)有數(shù)據(jù)推理出圖譜中所蘊含且未知的知識,可以分為傳統(tǒng)方法、基于幾何運算方法以及深度學(xué)習(xí)方法[86]。

      (1)傳統(tǒng)方法

      早期因受限于低性能的設(shè)備及技術(shù),多利用本體推理[87]、邏輯推理[88],這些推理技術(shù)需要嚴(yán)格的格式要求,且大多高度依賴于推理工具的表現(xiàn),人工操作的復(fù)雜程度也較高,不利于大規(guī)模地推廣使用。知識圖譜NELL[89]采用手寫規(guī)則推理算法對文本數(shù)據(jù)中的三元組數(shù)據(jù)進行抽取,能夠快速建立起大規(guī)模的知識圖譜,但這類圖譜數(shù)據(jù)準(zhǔn)確性存在問題,可能不利于推理的展開。為了解決推理準(zhǔn)確性的問題,路徑排序算法[90]應(yīng)運而生,該方法基于圖結(jié)構(gòu),采用了隨機游走的思想,通過實體節(jié)點間存在的路徑作為特征來進行推理預(yù)測,能夠很好地解決知識圖譜過多噪聲對推理起到干擾的情況。但以上這些技術(shù)都要求對相關(guān)特征進行顯示定義,有賴于人工制定推理步驟,耗時耗力。

      (2)幾何運算法

      基于幾何運算法能夠平移或旋轉(zhuǎn)知識圖譜中的實體與關(guān)系,從而映射到低維的連續(xù)向量空間,使得算法自動捕捉和推理相關(guān)特征,省去了繁瑣的人工操作。最具代表性的圖嵌入模型TransE[91]將向量化后的(頭實體、關(guān)系、尾實體)三元組之間的合理性評估視作為頭實體向量A到尾實體向量B的翻譯問題,如若A經(jīng)過基于關(guān)系向量的變換能夠得到B,就證明該三元組能夠被知識圖譜正確響應(yīng)。

      但TransE對于一對多、多對一以及多對多關(guān)系的情況無法很好地處理。TransH[92]將頭實體向量與尾實體向量投影到同一平面上,再進行頭實體向量A到尾實體向量B的翻譯,彌補了TransE的不足,但TransH模糊了實體向量空間和關(guān)系向量空間,籠統(tǒng)地將分屬不同概念的實體與關(guān)系置入同一空間,導(dǎo)致表達效果有所欠缺。TransR[93]拆分了實體向量空間與關(guān)系向量空間,通過對不同空間進行差異化的分析操作,進一步提升了表達能力,但是進一步增加了參數(shù)量。為減少TransR的參數(shù)量,TransD[94]將實體、關(guān)系相關(guān)向量做外積計算來動態(tài)得到關(guān)系投影矩陣,在減少參數(shù)量的同時最大限度地保留了其表示能力。

      以上模型采取的是將頭實體向量經(jīng)過關(guān)系向量翻譯得到尾實體向量的操作,但這種類型的模型無法細分多關(guān)系語義,同一關(guān)系可能在不同的頭實體與尾實體的連接中有著截然不同的語義,TransG[95]采取貝葉斯非參數(shù)無限混合模型(Bayesian non-parametric infinite mixture model),將一個關(guān)系向量生成多個翻譯內(nèi)容,再依據(jù)三元組表達的特定語義獲取其中的最優(yōu)結(jié)果,能夠很好地分析關(guān)系中存在的多語義,提升了三元組的分類精準(zhǔn)度,在同時期的鏈接預(yù)測與三元組分類任務(wù)處理結(jié)果最優(yōu)。

      TransG模型通過在幾何空間進行平移的任務(wù),其成功取決于建模以及關(guān)系間模式的相關(guān)能力,在面對對稱、逆以及合成關(guān)系模式時效果欠缺。RotatE[96]旋轉(zhuǎn)模型利用向量空間中頭實體到尾實體的旋轉(zhuǎn)定義每個關(guān)系,能夠做到對多種關(guān)系模型進行建模及推理,在WN18PR與FB15k-237數(shù)據(jù)集上的表現(xiàn)超越了過往的模型。

      (3)深度學(xué)習(xí)法

      卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為深度學(xué)習(xí)中最具代表性的結(jié)構(gòu)之一,能夠?qū)W習(xí)深層次的特征,ConvE[97]將CNN引入到知識圖譜推理中,運用卷積網(wǎng)絡(luò)捕捉深層次的實體間的關(guān)系缺失,彌補了以往鏈路預(yù)測的深度欠缺性,但這種方法僅僅考慮了局部不同維度的關(guān)系,而忽略了全局相同維度下的關(guān)系。ConvKB[98]將頭實體、關(guān)系以及尾實體以列向量矩陣形式呈現(xiàn),并送入卷積層,再經(jīng)由卷積層的多個濾波器來產(chǎn)生多種特征,該方法考慮了實體與關(guān)系嵌入的全局關(guān)系,在WN18PR與FB15k-237兩個基準(zhǔn)數(shù)據(jù)集上做到了領(lǐng)先。

      由于CNN處理模糊性語句時效果欠缺且不斷地池化會引起重要信息的丟失,為保證重要信息的完整性,Vu等人[99]又將膠囊網(wǎng)絡(luò)[100]應(yīng)用于知識推理,提出CapsE模型,將每一個三元組都表示為矩陣,通過卷積學(xué)習(xí)其特征后構(gòu)建各自的低級膠囊網(wǎng)絡(luò),再動態(tài)路由到高級膠囊網(wǎng)絡(luò),由于膠囊網(wǎng)絡(luò)輸出結(jié)果為向量,依托路由產(chǎn)生的向量長度就可以對三元組進行打分。其結(jié)果在相同基準(zhǔn)數(shù)據(jù)集的表現(xiàn)超過了ConvKB。

      (4)海洋領(lǐng)域知識圖譜推理的難點

      海洋領(lǐng)域涵蓋范圍廣,群多子領(lǐng)域間也存在交叉情況,在利用所構(gòu)建好的圖譜知識進行擴充推理時難免出現(xiàn)大量干擾,又因本身數(shù)據(jù)集規(guī)模與來源的局限性,因此應(yīng)用于海洋領(lǐng)域的知識推理可能會收效甚微。

      2 海洋與圖譜結(jié)合應(yīng)用

      2.1 實例

      為應(yīng)對海洋專業(yè)領(lǐng)域知識圖譜稀缺的情況,阮彤等人[101]利用數(shù)據(jù)驅(qū)動的增量方式構(gòu)建了海洋領(lǐng)域的中文知識圖譜,將Word文本數(shù)據(jù)以及關(guān)系數(shù)據(jù)庫分別利用Word封裝器以及D2R映射工具完成知識子圖的轉(zhuǎn)化,并結(jié)合圖書館電子資源成功實現(xiàn)了語義檢索,極大提升了海洋類信息的搜尋速度與精準(zhǔn)度。

      隨著各國對海洋領(lǐng)域的持續(xù)重視,針對海運、船運產(chǎn)業(yè)鏈等重點海洋數(shù)據(jù)信息的分析利用就顯得尤為重要,以往的船舶數(shù)據(jù)檢測系統(tǒng)僅僅是簡單地核查檢索詞與數(shù)據(jù)庫內(nèi)數(shù)據(jù)之間的關(guān)聯(lián)程度,且每個數(shù)據(jù)相互之間并無聯(lián)系,無法提供準(zhǔn)確且便于理解的知識數(shù)據(jù)。為快速定位航線、港口、運營企業(yè)等重要船舶信息,李琦[102]利用知識圖譜對航線、港口等數(shù)據(jù)進行了整合匹配,使得船舶信息查詢系統(tǒng)更加智能化和便捷化。

      任夢星[103]研究發(fā)現(xiàn)鮮有關(guān)于艦船知識的深入探究,導(dǎo)致相關(guān)人員面對數(shù)據(jù)分布稀缺的艦船相關(guān)知識往往無從下手,數(shù)據(jù)得不到有效的利用。為最大化利用艦船類型、行駛軌跡等重要數(shù)據(jù)信息,任夢星構(gòu)建了一個關(guān)于艦船信息的垂直知識圖譜,將數(shù)據(jù)輔以Neo4j圖數(shù)據(jù)庫來儲存,并輔以知識問答系統(tǒng)作為知識圖譜與查詢?nèi)藛T的交互,大大提高了艦船工作人員的知識獲取速度。

      2.2 前景

      海洋領(lǐng)域當(dāng)前針對熱點數(shù)據(jù)的研究主要集中在兩方面:文獻數(shù)據(jù)分析以及海洋垂直知識圖譜構(gòu)建。從文獻分析角度來說,各個文獻數(shù)據(jù)中蘊含著大批的未開發(fā)知識數(shù)據(jù),但文獻之間的聯(lián)系較為松散,平常的文獻調(diào)研分析無法做到高效且準(zhǔn)確地找出海量文獻間的關(guān)聯(lián),利用知識圖譜的可視化工具可以快速提取出當(dāng)前研究熱點以及關(guān)注熱點最為密切的作者和機構(gòu)等信息,有利于海洋領(lǐng)域研究者進行熱點的獲取與追蹤,能夠大大提高其對實時熱點研究的敏感度。另外除去目前可被直接觀測到的海島數(shù)據(jù)、海浪數(shù)據(jù)、海洋災(zāi)害數(shù)據(jù)等顯性海洋數(shù)據(jù)外,海洋領(lǐng)域還有相當(dāng)一部分有待開發(fā)的隱性數(shù)據(jù),這些數(shù)據(jù)不僅內(nèi)部間存在著難以發(fā)現(xiàn)的關(guān)聯(lián)性,甚至數(shù)據(jù)間也會彼此影響,有些是直接聯(lián)系,例如海底火山的爆發(fā)會對相關(guān)海域的海浪造成影響,還有些可能是多跳聯(lián)系,由于數(shù)據(jù)的海量性及復(fù)雜性,依托人工去梳理這種隱性聯(lián)系是不切實際的。通過構(gòu)建海洋領(lǐng)域子領(lǐng)域的知識圖譜,可以有效梳理隱性關(guān)系,為智能化精準(zhǔn)分析提供了可能。

      3 結(jié)論

      本文首先總結(jié)了知識圖譜可視化在海洋文獻的應(yīng)用,為后續(xù)海洋領(lǐng)域相關(guān)研究者進行熱點分析與研究提供分析基礎(chǔ)。其次探究了海洋垂直領(lǐng)域的流程與技術(shù),從半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)抽取入手,根據(jù)傳統(tǒng)方法的改進演變,分析介紹了目前的關(guān)鍵技術(shù),并探究了海洋領(lǐng)域?qū)τ谥R圖譜的結(jié)合應(yīng)用。希望可以為知識圖譜相關(guān)技術(shù)在海洋領(lǐng)域的進一步應(yīng)用提供理論支撐,同時為海洋領(lǐng)域相關(guān)工作者提供實際參考。

      猜你喜歡
      圖譜實體海洋
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      海洋的路
      愛的海洋
      琴童(2017年7期)2017-07-31 18:33:48
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      第一章 向海洋出發(fā)
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      主動對接你思維的知識圖譜
      江川县| 东乡族自治县| 芜湖县| 荆门市| 安化县| 巴里| 即墨市| 贵定县| 香港 | 山阳县| 丁青县| 特克斯县| 淮南市| 逊克县| 讷河市| 富锦市| 封丘县| 莱阳市| 宽甸| 星座| 随州市| 胶南市| 花莲县| 甘肃省| 建水县| 阳山县| 海安县| 青龙| 定边县| 邻水| 从江县| 上高县| 巴马| 西丰县| 连云港市| 当雄县| 贵德县| 洪雅县| 瓦房店市| 贡山| 安庆市|