• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      領(lǐng)域知識圖譜研究綜述①

      2020-06-20 07:31:18劉燁宸李華昱
      計算機系統(tǒng)應(yīng)用 2020年6期
      關(guān)鍵詞:醫(yī)學(xué)知識本體圖譜

      劉燁宸,李華昱

      (中國石油大學(xué)(華東) 計算機科學(xué)與技術(shù)學(xué)院,青島 266580)

      1 引言

      知識圖譜的概念要追溯到上世紀(jì)六十年代提出的一種知識表示形式-語義網(wǎng)絡(luò)(semantic network),它由相互連接的節(jié)點和邊組成,節(jié)點表示概念或?qū)ο?邊表示節(jié)點與節(jié)點之間的關(guān)系.在表現(xiàn)形式上,語義網(wǎng)絡(luò)和知識圖譜相似,但語義網(wǎng)絡(luò)側(cè)重于描述概念與概念之間的關(guān)系,知識圖譜側(cè)重于描述實體與實體之間的關(guān)系[1].除了語義網(wǎng)絡(luò)之外,語義網(wǎng)(semantic web)和鏈接數(shù)據(jù)(linked data)也為知識圖譜的誕生提供了支撐.

      知識圖譜分為通用知識圖譜與領(lǐng)域知識圖譜兩類.這兩種知識圖譜主要存在覆蓋范圍和使用方式上的差異.通用知識圖譜面向通用領(lǐng)域,主要包含了大量的現(xiàn)實世界中的常識性知識,覆蓋面廣.領(lǐng)域知識圖譜又稱為行業(yè)知識圖譜或垂直知識圖譜,是面向某一特定領(lǐng)域的,是由該領(lǐng)域的專業(yè)數(shù)據(jù)構(gòu)成的行業(yè)知識庫,因其基于行業(yè)數(shù)據(jù)構(gòu)建,有著嚴(yán)格而豐富的數(shù)據(jù)模式,所以對該領(lǐng)域知識的深度、知識準(zhǔn)確性有著更高的要求.

      本文通過介紹領(lǐng)域知識圖譜的定義與架構(gòu),首先對領(lǐng)域知識圖譜有個基本了解.然后以醫(yī)學(xué)知識圖譜的構(gòu)建為例介紹信息抽取、知識融合和知識加工3 個核心技術(shù).最后列舉了幾大熱門領(lǐng)域知識圖譜的現(xiàn)狀并對知識圖譜的應(yīng)用做出說明.

      2 領(lǐng)域知識圖譜的定義與架構(gòu)

      2.1 領(lǐng)域知識圖譜的定義

      要說明什么是領(lǐng)域知識圖譜,首先應(yīng)該闡述什么是知識圖譜.其實,工業(yè)界和學(xué)術(shù)界都沒有對于知識圖譜給出一個嚴(yán)格的定義.本文在這里借用“Exploiting Linked Data and Knowledge Graphs in Large Organisations”[2]這本書對知識圖譜的定義:“A knowledge graph consists of a set of interconnected typed entities and their attributes.”,即知識圖譜是由一些相互連接的實體以及它們的屬性構(gòu)成的.知識圖譜是由一條條知識組成,而知識需要有其表達(dá)形式,目前主流的知識表達(dá)形式有兩種:W3W 制定的資源描述框架(Resource Description Framework,RDF)和網(wǎng)絡(luò)本體語言(Web Ontology Language,OWL).本質(zhì)上,知識圖譜是一種揭露實體之間關(guān)系的語義網(wǎng)絡(luò).但是又不同于上世紀(jì)五六十年代產(chǎn)生的語義網(wǎng)絡(luò),它之所以成為了新興技術(shù),其中的關(guān)鍵就是知識規(guī)模.知識圖譜是大數(shù)據(jù)時代催生的,其規(guī)模之大決定了其效用之大.當(dāng)前已經(jīng)建成了多個大規(guī)模知識圖譜:DBpedia,YAGO,XLORE,Freebase,Google KG 等.表1統(tǒng)計了部分知識圖譜的數(shù)據(jù)規(guī)模.

      表1 部分知識圖譜規(guī)模統(tǒng)計

      領(lǐng)域知識圖譜(domain-specific knowledge graph)作為知識圖譜的一個分支,它把知識的覆蓋范圍和使用方式都聚焦于某一特定領(lǐng)域,因此其對該領(lǐng)域知識的深度和精度都有很高的要求.通用知識圖譜則更注重廣度,強調(diào)融合更多的實體,其精確度不夠高,且受概念范圍的影響,很難借助本體庫對公理、規(guī)則以及約束條件的支持能力規(guī)范其實體、屬性、實體間的關(guān)系等[3].領(lǐng)域知識圖譜具有許多不同的數(shù)據(jù)模式以適應(yīng)不同的業(yè)務(wù)場景和使用人員

      表2總結(jié)了領(lǐng)域知識圖譜和通用知識圖譜在知識表示、知識獲取和知識應(yīng)用3 個方面的區(qū)別.

      表2 通用知識圖譜和領(lǐng)域知識圖譜比較[4]

      知識表示的3 個維度中比較重要的一個維度是知識粒度,知識粒度反映了基本知識單元的大小.不同領(lǐng)域中粒度大小往往是不相同的,也難以形成一個統(tǒng)一標(biāo)準(zhǔn).在傳統(tǒng)的知識搜索領(lǐng)域中,知識粒度往往是文檔級別,這也就表現(xiàn)為搜索結(jié)果是一堆文檔的羅列.而在引入知識圖譜后的搜索結(jié)果可以直接給出答案的名詞以及答案的相近關(guān)系,這也就是知識表示粒度細(xì)化到單個實體乃至是實體的某個屬性的表現(xiàn)(如圖1).一般來說,知識表示的細(xì)膩程度與表達(dá)能力成正比,與獲取難度成反比.領(lǐng)域知識圖譜往往要求更細(xì)的知識粒度,這也就造成了知識獲取的困難.所以領(lǐng)域知識圖譜的構(gòu)建更加花費資源[4].

      圖1 知識圖譜以文檔中的實體作為知識單元

      從知識獲取層面看,領(lǐng)域知識圖譜對知識質(zhì)量要求更加苛刻,這是因為領(lǐng)域內(nèi)的應(yīng)用容錯率更低.比如教育領(lǐng)域,某一知識點的錯誤還可能導(dǎo)致與其關(guān)聯(lián)知識產(chǎn)生偏差.對質(zhì)量要求苛刻自然也就需要更多的專家參與,這也是領(lǐng)域知識圖譜準(zhǔn)確度的保障.但重度專家參與并不意味著完全由專家建設(shè),充分發(fā)揮專家在該領(lǐng)域的專業(yè)性,自動化建設(shè)與人力補充才是構(gòu)建領(lǐng)域知識圖譜的正確思路.

      由于領(lǐng)域知識圖譜知識覆蓋范圍較小,知識深度更深,所以知識點更加密集,這就導(dǎo)致領(lǐng)域知識圖譜的推理鏈條更長.領(lǐng)域知識圖譜往往是為了某一專業(yè)領(lǐng)域而構(gòu)建的,其應(yīng)用復(fù)雜度自然更復(fù)雜一些.

      2.2 領(lǐng)域知識圖譜的架構(gòu)

      領(lǐng)域知識圖譜的架構(gòu)分兩種:一種是領(lǐng)域知識圖譜自身的邏輯結(jié)構(gòu);另一種是領(lǐng)域知識圖譜的構(gòu)建技術(shù)(體系)架構(gòu),如圖2所示.

      從邏輯上看,知識圖譜分為數(shù)據(jù)層和模式層.在數(shù)據(jù)層中,知識以事實為單位進行存儲.事實通常以三元組的形式進行存儲在圖數(shù)據(jù)庫中.像Neo4J、ArangoDB、OrientDB 都是當(dāng)前主流的圖數(shù)據(jù)庫.模式層制定了數(shù)據(jù)層應(yīng)該遵守的約束規(guī)范.通常采用本體庫來管理知識圖譜的模式層,借助本體庫對公理、規(guī)則和約束條件的支持能力來規(guī)范實體、關(guān)系以及實體的類型和屬性等對象間的聯(lián)系[5].知識圖譜的技術(shù)(體系)架構(gòu)是指其構(gòu)建模式結(jié)構(gòu),通常有自底向上構(gòu)建和自頂向下兩種構(gòu)建方式.自底向上的構(gòu)建方式是直接進行數(shù)據(jù)抽取,將所得實體、關(guān)系、屬性等經(jīng)審核后整合到知識庫中.自頂向下的構(gòu)建方式先定義頂層關(guān)系本體,再將實體整合到頂層本體中.通用知識圖譜為了融合更多的實體,大多采用自底向上的方式構(gòu)建[6].領(lǐng)域知識圖譜面向特定領(lǐng)域,對知識的質(zhì)量和準(zhǔn)確度要求苛刻,因此要求領(lǐng)域知識圖譜具有完備的本體層模式,通常采用自頂向下和自底向上相結(jié)合的構(gòu)建方式[6].

      圖2 領(lǐng)域知識圖譜體系架構(gòu)

      3 領(lǐng)域知識圖譜構(gòu)建

      隨著研究熱度越來越高,各類領(lǐng)域知識圖譜迅速建設(shè)起來,不但涉及領(lǐng)域范圍廣,而且領(lǐng)域細(xì)分更加復(fù)雜.比如醫(yī)學(xué)知識圖譜就可以細(xì)化為生物醫(yī)學(xué)領(lǐng)域知識圖譜、中醫(yī)學(xué)科領(lǐng)域知識圖譜、中文疾病知識圖譜乃至乳腺腫瘤知識圖譜、基于甲狀腺知識圖譜等.雖然說領(lǐng)域知識圖譜的構(gòu)建總體遵循上文闡述的體系架構(gòu),但是具體到各行業(yè)總會產(chǎn)生差異.所以無法空泛地講領(lǐng)域知識圖譜的構(gòu)建.接下來,本文將選取當(dāng)前比較熱門的醫(yī)學(xué)領(lǐng)域為例,闡述領(lǐng)域知識圖譜的構(gòu)建技術(shù).

      醫(yī)學(xué)領(lǐng)域知識圖譜是由多種信息處理技術(shù)共同構(gòu)建而成.通過醫(yī)學(xué)信息抽取技術(shù),可以從包含醫(yī)學(xué)數(shù)據(jù)的數(shù)據(jù)源中提取出實體、實體間的關(guān)系和實體的屬性等要素.通過醫(yī)學(xué)知識融合技術(shù),可以使信息抽取中提取的事實歧義性更小、冗余度更低、錯誤更低.但事實本身不等于知識,要想最終獲取結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識體系,還要進行知識加工.

      3.1 醫(yī)學(xué)知識表示

      知識表示是醫(yī)學(xué)知識圖譜構(gòu)建之前確定下來的一組約定,以便將知識以符號的形式存儲.知識表示的選擇影響著醫(yī)學(xué)知識圖譜這個系統(tǒng)在信息抽取、存儲以及應(yīng)用的效率[7].知識表示方法有3 類.

      (1)基于符號邏輯的知識表示.該方法是早期醫(yī)療知識庫使用的知識表示方法,常見的邏輯方法有時間、概率、答案集編程、時間抽象等.在文獻[8]中,van der Heijden 等提出基于時態(tài)邏輯的知識表示方法來規(guī)范化具有生理背景知識的臨床指南.在文獻[9]中,Merhej 等提出了一種基于答案集編程(ASP)方法,該方法在處理復(fù)雜搜索問題時取得了較好的成效,不僅可以用于檢測不同治療方法的沖突,還可以檢測治療方法間的相互作用.但是基于符號邏輯的知識表示很難使用機器生成推理規(guī)則,僅僅在數(shù)據(jù)規(guī)模較小的時期使用較廣,現(xiàn)在面對規(guī)模龐大的醫(yī)學(xué)知識庫建設(shè)、面對具有挑戰(zhàn)性的臨床患者數(shù)據(jù)和基因組數(shù)據(jù)時,僅作為輔助形式存在[7].

      (2)使用語義網(wǎng)的知識表示.這種方法當(dāng)前認(rèn)可度比較高,使用也很廣泛.文獻[10]就使用語義網(wǎng)絡(luò)技術(shù)從計算機可解釋的準(zhǔn)則中評估護理行為并檢測個性化過程中的潛在矛盾,而文獻[11]則使用語義網(wǎng)絡(luò)技術(shù)通過醫(yī)療行為和治療數(shù)據(jù)的層次結(jié)構(gòu)進行推理以檢測主要的替代干預(yù)措施.在文獻[12]中,作者使用UMLS 尤其是其語義網(wǎng)絡(luò)來檢測臨床指南中的模式.使用語義網(wǎng)的知識表示主要包括用于可擴展標(biāo)記語言XML、描述Web 資源的資源描述框架RDF 和本體語義描述語言WOL.RDF 假定任何復(fù)雜的語義都可以通過若干個三元組的組合來表達(dá).RDF作為一個統(tǒng)一且無歧義的語義定義方式,能夠促進語義網(wǎng)不同知識的相互鏈接,克服了XML 必須需要足夠詳細(xì)的XML 解釋文檔才能解釋語義的困難.當(dāng)前在工業(yè)界大規(guī)模應(yīng)用的是基于RDF 三元組的表示方法.

      (3)表示學(xué)習(xí).RDF 方法雖然得到了大規(guī)模應(yīng)用,但是由于知識圖譜中節(jié)點個數(shù)影響著推理的效率和難度,所以RDF 方法在應(yīng)用于醫(yī)學(xué)領(lǐng)域時會出現(xiàn)計算效率低等問題.表示學(xué)習(xí)可以將醫(yī)學(xué)研究對象的語義信息表示為稠密低維的實數(shù)值向量.通過在低維空間中計算和推理,能有效解決數(shù)據(jù)稀疏的問題,適應(yīng)了大數(shù)據(jù)環(huán)境下知識計算效率問題,更容易解決不同源的異質(zhì)信息融合問題.醫(yī)學(xué)知識圖譜按照計算方式不同可以分為距離平移模型(translational distance model)和語義匹配模型(semantic matching model)[6].其中距離平移模型通過設(shè)計距離評估函數(shù)判斷知識的合理性,平移模型的代表是Bordes 提出的TransE 模型.語義匹配模型包括單層神經(jīng)網(wǎng)絡(luò)模型(Single Layer Model,SLM)、隱因子模型(Latent Factor Model,LFM)、神經(jīng)張量模型(Neural Tensor Model,NTM)、矩陣分解模型(Matrix Factorization,MF)等[6].這方面的研究有:Henriksson 等[13]證明基于電子病歷中的臨床事件的深度學(xué)習(xí)表示法可以對更高性能的預(yù)測模型進行后續(xù)訓(xùn)練.可見表示學(xué)習(xí)在知識表示方面效果不錯.

      3.2 醫(yī)學(xué)信息抽取

      醫(yī)學(xué)信息抽取主要是通過人工或者自動方式從非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)中提取醫(yī)學(xué)知識單元[7].人工抽取可以通過基于訪談或焦點小組的工具輔助方法或定性方法來獲取知識.目前臨床醫(yī)學(xué)知識庫、ICD-10和上文提到的SNOMED-CT 知識庫都是采用這種方法抽取構(gòu)建的.自動抽取借助可以使用機器學(xué)習(xí)(ML)或基于案例的推理(CBR)技術(shù)從醫(yī)學(xué)信息源中自動提取出醫(yī)學(xué)知識單元以構(gòu)建知識庫.采用這種方式構(gòu)建的醫(yī)學(xué)知識庫有一體化醫(yī)學(xué)語言系統(tǒng) UMLS.隨著機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展,醫(yī)學(xué)知識自動抽取的效率越來越高,但不利于自動化抽取的數(shù)據(jù),人工抽取也是必不可少的.接下來本文將從實體抽取、關(guān)系抽取和屬性抽取3 個方面介紹自動抽取技術(shù).

      3.2.1 實體抽取

      實體抽取又稱為命名實體識別(named entity recognition),旨在從醫(yī)學(xué)信息源中識別出特定的醫(yī)學(xué)實體.實體抽取是醫(yī)學(xué)信息抽取中至關(guān)重要的一環(huán).醫(yī)學(xué)實體抽取主要有3 種方法.

      (1)基于醫(yī)學(xué)規(guī)則和醫(yī)學(xué)詞典的方法

      早期醫(yī)學(xué)實體抽取研究的主要方向是從醫(yī)學(xué)信息文本中識別出疾病、癥狀、治療、專家這些關(guān)鍵的實體信息,為后續(xù)實體關(guān)系抽取奠定基礎(chǔ).Friedman 等[14]開發(fā)了一種通用的自然語言處理器來識別敘事報告中的臨床信息并將其映射為包含臨床術(shù)語的結(jié)構(gòu)化表示形式.基于醫(yī)學(xué)規(guī)則和醫(yī)學(xué)詞典的實體抽取方法需要大量的人醫(yī)學(xué)專家編寫提取規(guī)則.但是這些規(guī)則往往依賴于具體語言和文本風(fēng)格,這就造成了系統(tǒng)的可移植性不好,限制了其使用,現(xiàn)在這種方法逐漸被另外兩種方法取代[3].但在文獻[15]中,提出了一種將令牌級詞典功能整合到神經(jīng)模型中以進行命名實體識別的方法,使基于詞典的實體抽取方法得到發(fā)展.

      (2)基于機器學(xué)習(xí)與統(tǒng)計學(xué)算法結(jié)合的方法

      機器學(xué)習(xí)誕生后,研究者嘗試通過使用機器學(xué)習(xí)中的監(jiān)督算法結(jié)合一些醫(yī)學(xué)規(guī)則從醫(yī)學(xué)數(shù)據(jù)源中提取實體.這種方法取得了不錯的效果,其中最具代表性的是2010年美國國家集成生物與臨床信息學(xué)研究中心(I2B2)給出的電子病歷命名實體語料標(biāo)注.除此之外,文獻[16]中提到Azalia 使用樸素貝葉斯分類器的命名實體識別,對圣訓(xùn)的印度尼西亞語翻譯中的名稱索引.使用機器學(xué)習(xí)從帶有命名實體的手動注釋的語料庫中學(xué)習(xí).但是,手動注釋語料庫非常昂貴且費力.文獻[17]中提出了一種無需任何人工注釋即可用于訓(xùn)練臨床NER 系統(tǒng)的新穎方法.它僅需要原始文本語料庫和諸如UMLS之類的資源,即可提供命名實體及其語義類型的列表.使用這兩個資源,將自動獲取注釋以訓(xùn)練機器學(xué)習(xí)方法.該方法在i2b2 2010 和SemEval 2014 的NER 共享任務(wù)數(shù)據(jù)集上進行了評估.其精度可以與過去使用人工注釋進行訓(xùn)練的許多監(jiān)督系統(tǒng)相媲美.

      (3)基于深度學(xué)習(xí)的方法

      深度學(xué)習(xí)方法是當(dāng)前使用很廣泛的實體抽取方法,該方法的思路是從目標(biāo)數(shù)據(jù)集中將有相似上下文特征的實體進行聚類操作.這個方法的缺陷是需要使用大量的標(biāo)準(zhǔn)語料進行模型訓(xùn)練,當(dāng)給定的實體實例較少時將面臨困難.在智能醫(yī)療領(lǐng)域,在這個問題上取得比較好的突破的是哥倫比亞大學(xué)的Zhang CW 和騰訊的Li YL[18].他們在2018年引入了一種生成式的視角來研究關(guān)系醫(yī)學(xué)實體對發(fā)現(xiàn)問題,旨在在最小化數(shù)據(jù)需求的同時,擴大高質(zhì)量而又新穎的結(jié)構(gòu)化新醫(yī)學(xué)知識的規(guī)模.基于此提出了(CRVAE)模型,通過利用已標(biāo)注的實體三元組在自然語言表述上的特點,將醫(yī)學(xué)實體和關(guān)系輸入編碼器,通過訓(xùn)練模型,對每一種醫(yī)療關(guān)系的不同實體對進行編碼,再通過解碼器進行共同訓(xùn)練,重建實體對,最后得到未被標(biāo)注的實體三元組.這種方法即使在僅有少量外部資源的情況下也能有不錯的判別效果.Zhang 等的實驗表明:該方法能夠在降低外部資源的條件下,以92.91%的支持度生成屬于某個特定醫(yī)療關(guān)系的實體三元組,其結(jié)果產(chǎn)生了61.93%的新樣本,準(zhǔn)確率也達(dá)到了77.17%.要正確地識別實體,形態(tài)分析(MA)是必不可少的步驟.文獻[19]提出了同時執(zhí)行MA 和NER 的集成神經(jīng)網(wǎng)絡(luò)模型,重新設(shè)計了MA 和NER 的執(zhí)行順序,該模型優(yōu)于獨立的MA 模型和獨立的NER 模型,可以有效緩解流水線架構(gòu)中經(jīng)常發(fā)生的錯誤傳播問題.

      3.2.2 關(guān)系抽取

      RDF 知識表示方式中包含(實體,關(guān)系,實體)格式的三元組,其中的關(guān)系就有關(guān)系抽取產(chǎn)生.醫(yī)學(xué)關(guān)系抽取就是從醫(yī)學(xué)數(shù)據(jù)中抽取兩實體關(guān)系以實現(xiàn)實體間語義聯(lián)結(jié).早期的醫(yī)學(xué)關(guān)系抽取方法類似于“實體抽取中基于醫(yī)學(xué)規(guī)則和醫(yī)學(xué)詞典的方法”,通過人工構(gòu)造規(guī)則和模板進行關(guān)系抽取.現(xiàn)階段醫(yī)學(xué)領(lǐng)域關(guān)系抽取方法有3 種.

      (1)基于機器學(xué)習(xí)的方法

      基于機器學(xué)習(xí)的方法是通過解決分類問題實現(xiàn)關(guān)系抽取,常用的分類方法有基于特征和基于核兩種.

      基于特征的方法是從文本中生成句法和語義等特征向量,分類器接受向量并判斷實體對之間關(guān)系.基于核的方法是根據(jù)某種結(jié)構(gòu)(比如序列、樹、圖、依存關(guān)系路徑等)來表示實體關(guān)系,通過函數(shù)來計算對象相似度,并稱這種函數(shù)為核.

      基于特征分類的方法抽取效果較好、速度很快,但是選擇合適的特征的會耗費許多時間和精力,而選取特征的好壞關(guān)系著關(guān)系抽取的質(zhì)量.基于核的分類方法特征選取很靈活,但關(guān)系抽取速度慢,不適合大數(shù)據(jù)集的關(guān)系抽取.

      (2)基于深度學(xué)習(xí)的方法

      基于深度學(xué)習(xí)的關(guān)系抽取方法是目前醫(yī)學(xué)關(guān)系抽取主要的方法.常見的深度學(xué)習(xí)模型有卷積神經(jīng)

      網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN).卷積神經(jīng)網(wǎng)絡(luò)依靠卷積核獲取局部特征,適用于短句子實體關(guān)系抽取;遞歸神經(jīng)網(wǎng)絡(luò)善于學(xué)習(xí)長期依賴特征,適合處理長句子,文獻[20]中提出了一種結(jié)構(gòu)塊驅(qū)動的卷積神經(jīng)學(xué)習(xí)的新型輕量級關(guān)系提取方法,通過在兩個數(shù)據(jù)集SemEval2010 和KBP37 上的實驗,證明了該方法的顯著優(yōu)勢.

      (3)基于機器學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合的方法

      近年來,為了充分發(fā)揮機器學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)勢,醫(yī)學(xué)專家們將兩種關(guān)系抽取方法結(jié)合起來,以實現(xiàn)更高效的關(guān)系抽取.李智恒等設(shè)計的從化學(xué)文獻中抽取化學(xué)物質(zhì)致病關(guān)系的系統(tǒng)-CDRExtractor,就是將基于特征的分類方法和基于核的分類方法結(jié)合起來進行CID 關(guān)系抽取.該系統(tǒng)在BioCreative V CDR 測評任務(wù)CID 子任務(wù)提供的測試集上達(dá)到了67.72% 的F 值[21].Zhang Y 等[22]提出了一種混合模型,采用RNN和CNN 相結(jié)合的方式,實現(xiàn)檢測和提取生物醫(yī)學(xué)關(guān)系,實驗結(jié)果表明,RNNs 和CNNs 在生物醫(yī)學(xué)關(guān)系提取中的優(yōu)勢是互補的.針對處理長句子和句子中的多個實體時當(dāng)前模型出現(xiàn)問題較多的情況,文獻[23]中使用具有分段注意力和實體描述的循環(huán)神經(jīng)網(wǎng)絡(luò),有效的克服了上述兩個問題,并將F1 分?jǐn)?shù)提高約3%.

      屬性抽取的主要任務(wù)是獲取(實體,屬性,屬性值)類型三元組中的屬性和屬性值.對于醫(yī)學(xué)實體,藥品的規(guī)格、劑量、用法用量等都可以看作藥品實體的屬性.通過屬性抽取建立完整的實體描述.由于實體的屬性可以看成是實體和屬性值之間的一種名稱性關(guān)系,因此可以將實體屬性的抽取問題轉(zhuǎn)換為關(guān)系抽取問題.比如張元博在文獻[24]中探索到屬性及其屬性值存在共同特征,采用基于特征的機器學(xué)習(xí)方法來實現(xiàn)醫(yī)學(xué)實體的屬性提取.

      3.3 醫(yī)學(xué)知識融合

      醫(yī)學(xué)知識融合的目的是將醫(yī)學(xué)信息抽取中獲得的不同來源、不同結(jié)構(gòu)、不同表示方式的數(shù)據(jù)進行整合,最終將這些異構(gòu)醫(yī)學(xué)數(shù)據(jù)實現(xiàn)在同一框架下的規(guī)范表示[7],如圖3所示.知識融合分為共指消解和實體消歧.

      圖3 不同數(shù)據(jù)轉(zhuǎn)化為三元組示意圖

      3.3.1 共指消解

      共指消解的主要目的是當(dāng)多個名稱對應(yīng)同一實體的時候,將這些名稱對應(yīng)到正確的規(guī)范化的實體上,也就是解決異名同物問題.比如撲熱息痛片又名泰諾林、必理通等,它們都指的是學(xué)名為對乙酰氨基酚的藥物.在信息抽取完后產(chǎn)生了這些別名,這時候就需要共指消解技術(shù)把它們關(guān)聯(lián)到對乙酰氨基酚實體上.共指消解問題可以通過把其看作聚類問題來求解.該方法以規(guī)范化的實體為中心,通過實體聚類實現(xiàn)規(guī)范實體與它的別名實體的匹配[25].這方面的研究有:在文獻[26]中,提出了一種獲取健康消費者術(shù)語并將其與標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語保持一致的方法.2015年,在文獻[27]中提出了結(jié)合奇異值分解和多分類器針對共指消解問題的新方法,該方法可以獲得72.1 的平均準(zhǔn)確率.

      3.3.2 實體消歧

      實體消歧是專門用于解決異構(gòu)數(shù)據(jù)的實體產(chǎn)生歧義問題的技術(shù),也就是針對同名異物問題.比如止吐藥dogmatilum(舒必利,止吐靈)叫“舒寧”,而抗焦慮藥oxazepam(N-去甲羥基安定)也叫“舒寧”,這種問題不加以解決會造成嚴(yán)重的后果.實體消歧的主要思想是聚類,基本過程如圖4所示.關(guān)鍵在于評估實體和指標(biāo)的相似度,度量實體對象與指稱項之間相似度的常用的方法有4 種:空間向量模型(實體的上下文),語義模型(實體的上下文語義),社會網(wǎng)絡(luò)模型(利用關(guān)聯(lián)實體的關(guān)系構(gòu)建指標(biāo)網(wǎng)絡(luò)),百科知識模型(網(wǎng)站超鏈接)[25].

      圖4 實體消歧的基本方法過程

      近年來,實體消歧技術(shù)也與深度學(xué)習(xí)相結(jié)合.比如在文獻[28]中,將實體消歧定義為分類任務(wù),開發(fā)了一種新的基于LSTM 的體系結(jié)構(gòu),結(jié)果表明與其他方法(例如文獻[29]的HAC)相比,基于RNN 對句子含義進行編碼更適合于實體消歧的任務(wù).

      水是基礎(chǔ)性自然資源和戰(zhàn)略性經(jīng)濟資源。水利是國民經(jīng)濟和社會發(fā)展的重要基礎(chǔ)設(shè)施和基礎(chǔ)產(chǎn)業(yè)。在新的發(fā)展階段,如何更好地發(fā)揮水利行業(yè)的支撐和保障作用,是擺在我們面前重大而緊迫的課題。

      3.3.3 知識合并

      知識合并的主要任務(wù)是把結(jié)構(gòu)化的知識或者第三方知識庫的知識整合到知識圖譜中.結(jié)構(gòu)化的知識符合知識規(guī)范,實用度高.第三方知識庫也能為知識圖譜構(gòu)建提供可靠的知識來源,像WebMD、“好醫(yī)生”智能醫(yī)學(xué)數(shù)據(jù)庫、家庭醫(yī)生在線等都可以看作是第三方醫(yī)學(xué)知識庫,其中包含高質(zhì)量、規(guī)范化的醫(yī)學(xué)知識.

      本文參考Mendes 等對LOD 進行知識合并的方法[30],把合并第三方知識庫的流程歸類為:獲取知識;概念匹配;實體匹配;知識評估.其中概念匹配和實體匹配都是對第三方數(shù)據(jù)庫中獲得知識的概念和實體進行歸一化處理,知識評估是對新獲得知識一致性和準(zhǔn)確性的檢測[25].

      將原有的關(guān)系數(shù)據(jù)庫轉(zhuǎn)化為知識圖譜的知識表示也是知識合并的重要任務(wù).在圖數(shù)據(jù)庫未使用之前,使用比較普遍的都是關(guān)系型數(shù)據(jù)庫.W3C 的RDB2RDF小組制定了direct mapping 和R2RML 兩個標(biāo)準(zhǔn),用于將關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換為RDF 格式的數(shù)據(jù).Direct mapping 采用直接映射的方式,實現(xiàn)表→類、列→屬性、行→實例、單元格值→屬性值的映射.Direct mapping不能將數(shù)據(jù)庫的數(shù)據(jù)映射到我們自己定義的本體上,R2RML 通過自主編輯和設(shè)置映射規(guī)則解決了這個問題.從RDB 到RDF 的常用轉(zhuǎn)化工具有D2RQ、SquirrelRDF、OpenLink Virtuoso 等.

      3.4 醫(yī)學(xué)知識加工

      醫(yī)學(xué)知識加工的目的是把信息抽取和知識融合中獲得的知識加工成高質(zhì)量的知識.知識加工包括本體構(gòu)建、質(zhì)量評估和知識推理3 部分[25].

      3.4.1 醫(yī)學(xué)本體構(gòu)建

      醫(yī)學(xué)本體是對于醫(yī)學(xué)領(lǐng)域之中醫(yī)學(xué)概念及其相互之間關(guān)系的形式化表達(dá).醫(yī)學(xué)本體可以通過人工方法構(gòu)建也可以通過數(shù)據(jù)驅(qū)動自動構(gòu)建.人工方法構(gòu)建的本體很適應(yīng)目前大數(shù)據(jù)的形式,所以本文著重介紹下自動化的本體構(gòu)建技術(shù).

      自動化構(gòu)建本體的方法主要包括中心擴展法、由局部到全體、直接抽取文檔構(gòu)建本體等方法[31].本文將不同的本體構(gòu)建方法匯總在表3.

      表3 不同的本體構(gòu)建方法比較[31]

      就醫(yī)學(xué)知識圖譜的本體構(gòu)建來看,目前存在一些問題:①醫(yī)學(xué)領(lǐng)域本體的構(gòu)建需要醫(yī)學(xué)專家的參與,并沒有實現(xiàn)真正的自動化,還是以半自動化為主;②醫(yī)學(xué)領(lǐng)域本體自動化構(gòu)建具體實現(xiàn)較少,大多數(shù)研究還是理論研究;③語言分析軟件較少,不能滿足現(xiàn)在大規(guī)模醫(yī)學(xué)圖譜構(gòu)建的需求.目前來看本體構(gòu)建技術(shù)的發(fā)展和知識圖譜的發(fā)展熱度不匹配,本體構(gòu)建也應(yīng)該盡快實現(xiàn)理論到實踐的轉(zhuǎn)換,以適應(yīng)構(gòu)建大規(guī)模知識圖譜的需求.

      3.4.2 質(zhì)量評估

      質(zhì)量評估的主要目的是量化知識的可信度,舍棄置信度低的知識才能保證知識圖譜中知識的質(zhì)量[32].為了促進知識選擇,應(yīng)該使用系統(tǒng)來自動(或半自動化)用于特定目的的最佳知識的選擇.這需要基于一組特定標(biāo)準(zhǔn)來評估本體質(zhì)量的方法.這些標(biāo)準(zhǔn)必須是可量化的,以便系統(tǒng)而不是人來完成它.文獻[33]研究提出并開發(fā)了一種基于符號學(xué)的分層本體度量標(biāo)準(zhǔn)套件,它可以為有效屬性提供總體得分的度量,可以結(jié)合使用手動計算和自動化來計算指標(biāo),盡管只有某些指標(biāo)可以完全自動化的方式計算.該文章中提到,此套件已正式確定并在由模塊組成的排名系統(tǒng)中實現(xiàn).

      3.4.3 醫(yī)學(xué)知識推理

      知識推理是根據(jù)已有知識庫,采用相關(guān)算法,實現(xiàn)對知識圖譜的探索和挖掘.在醫(yī)學(xué)知識圖譜中,知識推理要有搜集數(shù)據(jù)、診斷疾病、提供治療方法的功能.而在醫(yī)學(xué)方面,病情往往因人而異,對于具體疾病的診斷往往是依靠醫(yī)生的從醫(yī)經(jīng)驗,所以醫(yī)學(xué)知識推理的構(gòu)建難度還是很高的.

      傳統(tǒng)的知識推理方法包括基于描述邏輯的推理、基于規(guī)則的推理、基于分布式的知識推理等,各方法的比較見表4.

      表4 推理方法的比較[34]

      這些方式很難滿足醫(yī)學(xué)大數(shù)據(jù)下的快速推理和對于增量知識和規(guī)則的快速加載,所以現(xiàn)在應(yīng)用更為廣泛的是結(jié)合人工智能技術(shù)的知識推理模型,常見的有人工神經(jīng)網(wǎng)絡(luò)模型(artificial neural netword model)、遺傳算法(genetic algorithm)和反向傳播網(wǎng)絡(luò)模型(back propagation)等.文獻[35]中就提出了一種表示本體,以將文獻抽象數(shù)據(jù)表征為4 個知識元素(背景,目標(biāo),解決方案和發(fā)現(xiàn)).案例研究表明,所提出的本體模型可以用來表示嵌入在文獻摘要中的知識,并且可以通過NLP 模型自動提取本體元素.所提出的框架可以增強文獻計量分析,以從文獻中探索更多知識,實現(xiàn)知識推理的功能.

      無論是傳統(tǒng)的知識推理方法還是人工智能技術(shù)的推理方法都是以知識圖譜作為數(shù)據(jù)源進行推理,而圖挖掘計算則是基于圖論的相關(guān)算法,把知識圖譜看作圖,把醫(yī)學(xué)實體看作節(jié)點,實體間的關(guān)系看作邊,實現(xiàn)對圖譜的探索和挖掘,更有利于解決大規(guī)模的圖數(shù)據(jù)分析問題[36].基于此,Jagvaral 于2019年提出具有注意機制的CNN-BiLSTM 方法用于知識圖譜基于路徑的推理[37].論文中提到,他們研發(fā)的路徑編碼器從大型圖形的路徑中提取特征更有效,更是說明了應(yīng)用多步推理在基于路徑的推理中可能會有用.此項研究只使用一種類型來表示實體,而大多數(shù)知識圖譜中的實體具有多種類型,因此,多種類型合并到路徑編碼中的路徑推理推理還有待研究.

      以上為比較具體的領(lǐng)域知識圖譜構(gòu)建流程,雖然領(lǐng)域知識圖譜應(yīng)用比較廣,但目前還尚未實現(xiàn)自動構(gòu)建,而在2018年,清華大學(xué)知識工程實驗室發(fā)表一篇名為“一種準(zhǔn)確而高效的領(lǐng)域知識圖譜構(gòu)建方法”的文章[38],介紹了一種快速構(gòu)建較高質(zhì)量的領(lǐng)域知識圖譜的方法,為領(lǐng)域知識圖譜構(gòu)建提供另一種思路,該方法稱為“四步法”:①領(lǐng)域本體構(gòu)建;②眾包半自動語義標(biāo)注;③外源數(shù)據(jù)補全;④信息抽取.在領(lǐng)域知識圖譜構(gòu)建過程中,權(quán)衡效率和準(zhǔn)確率,平衡自動化和人工構(gòu)建,以高效地構(gòu)建圖譜,這是當(dāng)前面臨的一個很大問題.

      3.5 知識圖譜繪制工具

      圖5是以心律失常為關(guān)鍵詞繪制的醫(yī)學(xué)領(lǐng)域知識圖譜,它展現(xiàn)了知識圖譜力導(dǎo)向布局圖的視圖形式.

      圖5 醫(yī)療領(lǐng)域知識圖譜舉例

      知識圖譜的繪制工具可分為兩大類:通用軟件,如SPSS、Ucinet、PajekWordsmithTools 和GIS 等.另一類是專門用于知識圖譜繪制的軟件,也有許多類型,有些是針對某些特定領(lǐng)域,有些是個人未公開的.表5對知識圖譜繪制工具做一個匯總.

      表5 知識圖譜繪制工具[32]

      4 領(lǐng)域知識圖譜的現(xiàn)狀和應(yīng)用

      4.1 領(lǐng)域知識圖譜的現(xiàn)狀

      隨著近幾年知識圖譜技術(shù)的發(fā)展,知識圖譜研究與落地發(fā)生了一些轉(zhuǎn)向.其中一個重要變化就是領(lǐng)域知識圖譜的建設(shè)成為主流.知識圖譜技術(shù)與各行業(yè)的深度融合已經(jīng)成為一個重要趨勢[4].

      接下來,本文對搜索、醫(yī)療、電商、社交、教育這幾個熱門領(lǐng)域規(guī)模比較大的知識圖譜進行匯總,見表6.

      表6 熱門領(lǐng)域知識圖譜匯總

      醫(yī)療領(lǐng)域是當(dāng)前建設(shè)很火熱的領(lǐng)域,僅是對中文醫(yī)學(xué)知識圖譜的相關(guān)檢索就達(dá)200 多條,大到中文疾病知識圖譜,小到甲狀腺知識圖譜,醫(yī)療領(lǐng)域知識圖譜的理論實踐化是有原因的:(1)醫(yī)療信息化浪潮.步入信息化社會以來,醫(yī)療信息化的發(fā)展從未停歇過,從最初的醫(yī)院信息系統(tǒng)開始,電子病歷、臨床智慧醫(yī)療等技術(shù)層出不窮.(2)龐大的醫(yī)學(xué)數(shù)據(jù).除醫(yī)院提供的病例信息,基因?qū)W研究,蛋白組學(xué)也給醫(yī)療領(lǐng)域貢獻了大量的數(shù)據(jù).(3)人工智能出現(xiàn)后,為體量龐大的醫(yī)學(xué)數(shù)據(jù)處理提供方向.知識圖譜正是作為大數(shù)據(jù)到人工智能的理想橋梁.整合異構(gòu)數(shù)據(jù),建立語義關(guān)系,最重要的是知識推理,醫(yī)療知識圖譜在智慧醫(yī)療的建設(shè)中起到越來越重要的作用,通過知識問答,知識推理將更好的為社會服務(wù).所以醫(yī)療知識圖譜發(fā)展迅速.與之相似,教育領(lǐng)域同樣具有數(shù)據(jù)量大,面臨信息化建設(shè)等優(yōu)點,相信教育知識圖譜也將會得到越來越多的關(guān)注.

      4.2 領(lǐng)域知識圖譜的應(yīng)用

      知識圖譜作為近十年內(nèi)新興的概念,其可以將各種信息和數(shù)據(jù)整合為知識,為各研究領(lǐng)域提供可視化分析,各類大規(guī)模知識圖譜在智能搜索、智能問答、智能推薦、情報分析等方面發(fā)揮了重要作用.

      4.2.1 智能搜索

      基于知識圖譜的智能搜索可以直接給出知識卡片而不是給出相關(guān)的鏈接序列.在知識圖譜的幫助下,搜索引擎可以將搜索關(guān)鍵詞映射到知識圖譜中匹配度較高的一個或一組概念上,最后以知識卡片的形式展現(xiàn)給用戶.知識卡片可以以3 種形式展示知識[3]:①對于單一關(guān)鍵詞的搜索,返還用戶查詢的實體的結(jié)構(gòu)化摘要.比如搜索姚明,將給出姚明的身份介紹以及主要關(guān)系介紹;②對于問題類的搜索,知識卡片直接給出答案.比如搜索“姚明的身高是多少?”,搜索結(jié)構(gòu)將是顯示226.0 cm 的知識卡片;③對于模糊類的查詢,將給出相關(guān)網(wǎng)頁列表.例如搜索“姚明最近的活動有哪些?”,搜索結(jié)果是包含姚明活動的新聞網(wǎng)頁.

      4.2.2 智能問答

      Gowild 狗尾草的AI 虛擬生命“琥珀虛顏”和蘋果的智能語音助手Siri 都是知識圖譜應(yīng)用于智能問答方面的實例.智能問答是信息檢索系統(tǒng)的一種高級形式,能夠用自然語言為用戶提供問題的解答或者實現(xiàn)人機交流.目前,語音助手研發(fā)十分火熱,比如百度自然語言部開發(fā)的小度機器人,阿里巴巴人工智能實驗室研發(fā)的天貓精靈,亞馬遜Alexa 語音服務(wù)等都是為智能問答更加智能、準(zhǔn)確做出地探究.

      4.2.3 智能推薦

      電商、教育、社交等行業(yè)都需要借助大數(shù)據(jù)行為分析進行用戶畫像,以指導(dǎo)廣告投放和提高用戶體驗.相較于原先對關(guān)聯(lián)性較差的數(shù)據(jù)進行用戶行為分析,知識圖譜一個天然的優(yōu)勢就是更突出數(shù)據(jù)之間的關(guān)系,這樣就能根據(jù)知識關(guān)聯(lián)關(guān)系獲得更加精確的用戶畫像,有助于精準(zhǔn)營銷、精細(xì)化運營.除了用戶畫像,智能推薦還要依靠商品之間的關(guān)聯(lián)提供使用建議、搭配等.

      4.2.4 情報分析

      江蘇大學(xué)劉桂峰利用CiteSpace 軟件信息可視化方法,對1990-2010年間來自Web of Science (SCIE)數(shù)據(jù)庫的太赫茲技術(shù)領(lǐng)域研究的文獻數(shù)據(jù)進行統(tǒng)計和可視化分析,揭示出該領(lǐng)域的領(lǐng)軍人物、知識基礎(chǔ)和研究前沿等信息[43].趙蓉英等[44]利用CiteSpace Ⅱ的爆發(fā)詞探測方法繪制知識圖譜,并繪制爆發(fā)詞隨時間演化的學(xué)科前沿發(fā)展趨勢圖,進而發(fā)現(xiàn)學(xué)科前沿.胡澤文等在文獻[28]中借助通過CiteSpace Ⅱ界定了改革開放來情報學(xué)的3 個發(fā)展階段.CiteSpace 是一款應(yīng)用于科學(xué)文獻中識別并顯示科學(xué)發(fā)展新趨勢和新動態(tài)的軟件,通過它繪制知識圖譜,能夠發(fā)現(xiàn)經(jīng)典文獻、研究熱點和研究前沿.可見知識圖譜用于情報分析方面有很大的發(fā)展?jié)摿?

      除此之外,知識圖譜應(yīng)用于醫(yī)學(xué)、教育等領(lǐng)域,對于建設(shè)智能醫(yī)療、智慧教育起著支撐作用.

      5 結(jié)語

      知識圖譜從最初作為輔助Google 搜索的技術(shù)被提出,到現(xiàn)在很多行業(yè)都在建設(shè)自己的知識圖譜,它的價值正在被慢慢挖掘出來.知識圖譜不是知識的終點,但是它確實能解決很多學(xué)科領(lǐng)域的瓶頸問題,成為智能化建設(shè)的基石.

      結(jié)合醫(yī)學(xué)知識圖譜的構(gòu)建和發(fā)展,本文認(rèn)為信息抽取技術(shù)仍是當(dāng)前的研究熱點,最理想的信息抽取方式是結(jié)合實體抽取、關(guān)系抽取和屬性抽取三者的聯(lián)合抽取,但該技術(shù)還沒有典型代表.而知識推理作為知識圖譜最大的亮點和功能,將其技術(shù)發(fā)展成熟還需要付出很大地努力.在人工智能還有很大發(fā)展?jié)摿Φ慕裉?借助人工智能技術(shù)實現(xiàn)知識推理有很大的發(fā)展前景.知識推理不僅是智能問答、智能推薦等應(yīng)用的關(guān)鍵技術(shù),更是智能化建設(shè)的基石.

      對于領(lǐng)域知識圖譜的發(fā)展方向,本文傾向于領(lǐng)域劃分更精細(xì),領(lǐng)域交互更頻繁的發(fā)展方向.類比于醫(yī)學(xué)領(lǐng)域中各種疾病的知識圖譜,也許教育領(lǐng)域會出現(xiàn)各種學(xué)科知識圖譜,因為越精細(xì),專業(yè)性越強,知識越準(zhǔn)確.這也是越來越多的人主張建立企業(yè)知識圖譜的原因.此外,各領(lǐng)域的知識圖譜不該是獨立存在的,領(lǐng)域知識圖譜之間有交互,才能真正地構(gòu)成知識網(wǎng).

      知識圖譜仍在發(fā)展初期,筆者僅希望通過本文的寫作,能拋磚引玉,吸引更多人了解這門技術(shù)并投入到相關(guān)的研究中來.

      猜你喜歡
      醫(yī)學(xué)知識本體圖譜
      Abstracts and Key Words
      繪一張成長圖譜
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      思維導(dǎo)圖在醫(yī)學(xué)中的應(yīng)用
      加強班級凝聚力建設(shè),激發(fā)學(xué)生學(xué)習(xí)的積極性
      主動對接你思維的知識圖譜
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      新環(huán)境下《解剖學(xué)》教學(xué)資源開發(fā)探討分析
      衛(wèi)?;瘜W(xué)教學(xué)中滲透醫(yī)學(xué)知識的實踐
      林芝县| 丰原市| 松桃| 马公市| 灯塔市| 双流县| 朔州市| 宜宾县| 浑源县| 高密市| 乳山市| 铅山县| 贞丰县| 新平| 江川县| 关岭| 张家口市| 囊谦县| 邢台市| 乌海市| 大连市| 依安县| 唐海县| 疏勒县| 湖口县| 麟游县| 义马市| 定陶县| 诸城市| 永康市| 望奎县| 齐齐哈尔市| 崇州市| 修武县| 广昌县| 乌鲁木齐市| 阿勒泰市| 麻栗坡县| 游戏| 衡阳县| 苍南县|