• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞法匹配與詞嵌入的醫(yī)療知識(shí)實(shí)體上下位關(guān)系抽取*

      2021-01-19 11:00:56劉子晨溫延龍
      關(guān)鍵詞:模式匹配詞法實(shí)體

      劉子晨 溫延龍 徐 雷

      (1.南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院 天津 300000)(2.南開(kāi)大學(xué)現(xiàn)代遠(yuǎn)程教育學(xué)院 天津 300000)

      1 引言

      人工智能研究與社會(huì)需求表明,醫(yī)學(xué)知識(shí)庫(kù)的構(gòu)建與醫(yī)療知識(shí)的組織和管理已成為精準(zhǔn)醫(yī)學(xué)領(lǐng)域的研究熱點(diǎn)[1]。在大數(shù)據(jù)時(shí)代,隨著醫(yī)療系統(tǒng)的電子化和信息系統(tǒng)的發(fā)展,醫(yī)療領(lǐng)域目前已經(jīng)累積了海量的數(shù)據(jù)。知識(shí)圖譜所具有的數(shù)據(jù)集成能力和知識(shí)推理能力順應(yīng)了這一發(fā)展趨勢(shì),可以將這些海量數(shù)據(jù)進(jìn)行整合、管理及應(yīng)用。

      實(shí)體上下位關(guān)系抽取是知識(shí)圖譜本體構(gòu)建過(guò)程中的一個(gè)環(huán)節(jié)和該領(lǐng)域的研究重點(diǎn)。實(shí)體上下位關(guān)系的獲取是語(yǔ)義層次結(jié)構(gòu)構(gòu)建的核心,而語(yǔ)義層次結(jié)構(gòu)又是知識(shí)圖譜構(gòu)建不可或缺的一環(huán)。同時(shí),實(shí)體上下位關(guān)系不僅是構(gòu)建知識(shí)圖譜的一個(gè)關(guān)鍵環(huán)節(jié),而且由其所構(gòu)建起來(lái)的分類(lèi)體系在醫(yī)療知識(shí)的問(wèn)答系統(tǒng)和決策支持系統(tǒng)等應(yīng)用中同樣有著重要作用。

      目前在醫(yī)療領(lǐng)域,國(guó)內(nèi)外已經(jīng)構(gòu)建了一些知識(shí)庫(kù),比如醫(yī)學(xué)主題詞表MeSH[2]、醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(yǔ)SNOMED-CT[3],以及國(guó)內(nèi)上海曙光醫(yī)院構(gòu)建的中醫(yī)藥知識(shí)圖譜[4]。但是這些已有知識(shí)庫(kù)或是針對(duì)特定醫(yī)學(xué)子領(lǐng)域,或是有著缺乏靈活性和能力不足等限制,無(wú)法滿足如今人們對(duì)于醫(yī)療知識(shí)圖譜的需求。而對(duì)于大規(guī)模數(shù)據(jù)的上下位關(guān)系抽取,因?yàn)槿斯し绞焦ぷ髁烤薮?,以及?zhuān)家難尋等原因,通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)化從大規(guī)模醫(yī)療語(yǔ)料中抽取實(shí)體上下位關(guān)系的研究非常有必要。

      雖然當(dāng)前針對(duì)醫(yī)療領(lǐng)域的實(shí)體上下位關(guān)系抽取模型還很少,但對(duì)于開(kāi)放域上的上下位關(guān)系抽取方法的相關(guān)研究已有許多。本文通過(guò)融合詞法模式匹配方法和基于詞嵌入的機(jī)器學(xué)習(xí)方法,構(gòu)造出一個(gè)醫(yī)療知識(shí)實(shí)體上下位關(guān)系抽取的綜合方法。該方法緩解了傳統(tǒng)Hearst-like詞法模式匹配[5]方法的召回率低,模式過(guò)于固定的缺陷,并通過(guò)引入分段線性投射改造基于詞嵌入的上下位關(guān)系判別模型使其可以應(yīng)用到上下位關(guān)系抽取任務(wù)中,而且利用兩種方法的互補(bǔ)性,提出了一種融合方法將兩種方法結(jié)合。

      2 國(guó)內(nèi)外研究現(xiàn)狀

      實(shí)體上下位關(guān)系也被稱為“is-a”關(guān)系,是語(yǔ)義關(guān)系的一種。這種層次關(guān)系在知識(shí)表示和推理中起著核心作用。依據(jù)實(shí)體上下位關(guān)系構(gòu)建的層次分類(lèi)系統(tǒng)能夠改善很多自然語(yǔ)言處理和信息檢索任務(wù),比如個(gè)性化推薦和問(wèn)答系統(tǒng)。隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),借助大量網(wǎng)絡(luò)數(shù)據(jù),一些上下文層次結(jié)構(gòu)的構(gòu)建利用了人工編輯的知識(shí)庫(kù)(比如維基百科、維基數(shù)據(jù)等)。但是這些大型層次分類(lèi)系統(tǒng)缺乏專(zhuān)業(yè)領(lǐng)域知識(shí)。如今,國(guó)內(nèi)外提出了很多方法來(lái)從大規(guī)模語(yǔ)料中抽取實(shí)體上下位關(guān)系。這些方法可以主要分為兩類(lèi)。

      從Hearst等[5]開(kāi)始通過(guò)詞法匹配的方式抽取上下位關(guān)系成為這一領(lǐng)域的常用方法。該方法將同一語(yǔ)句中滿足特定詞法模式的兩個(gè)詞預(yù)測(cè)為上下位關(guān)系。該方法的一個(gè)典型詞法模式就是“[A]such as[B]”,其中[A]和[B]表示名詞短語(yǔ),分別被視為上下位關(guān)系中的上位詞和下位詞。目前在業(yè)界,基于該方法已有一些成功的應(yīng)用比如Probase[6]。但由于這種詞法匹配過(guò)于具體,無(wú)法涵蓋所有語(yǔ)言環(huán)境,導(dǎo)致其召回率較低。為提高召回率和正確率,Sonw等[7]用上下位詞間的依賴路徑進(jìn)行模式匹配,同時(shí)對(duì)語(yǔ)法和詞法聯(lián)系進(jìn)行匹配;還有一些工作試圖自動(dòng)學(xué)習(xí)詞法匹配模式而非使用預(yù)定義的匹配列表[8~9]。然而此類(lèi)方法還是有著一個(gè)眾所周知的問(wèn)題,就是它的稀疏性,該方法要求上下位詞必須以一定的模式出現(xiàn)在同一語(yǔ)句中。

      為解決Hearst匹配方法的稀疏性問(wèn)題,目前實(shí)體上下位關(guān)系抽取的研究重點(diǎn)逐漸轉(zhuǎn)向了基于詞嵌入的方法。借助預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,如Word2Vec[10]、GloVe[11]等,將上下位詞表示為詞嵌入形式,用機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等模型,采用有監(jiān)督方法判別詞對(duì)是否為上下位關(guān)系[12~14]。Fu等[15]通過(guò)在中文語(yǔ)料上的實(shí)驗(yàn),指出上下位關(guān)系詞對(duì)的詞向量保留了語(yǔ)言規(guī)律,如v(蝦)-v(對(duì)蝦)≈v(魚(yú))-v(金魚(yú)),v代表詞向量。這意味著可以通過(guò)線性投射矩陣將下位詞向量映射到上位詞向量,但是由于單一的投射矩陣并不足以覆蓋所有上下位關(guān)系情況,所以其采用了分段線性投影的方法,來(lái)提高模型的效果。在這一工作基礎(chǔ)上,國(guó)內(nèi)外學(xué)者又提出了更多的方法取得了更優(yōu)的結(jié)果[16~18]。

      在文獻(xiàn)中,對(duì)于那種方法能更有效地抽取實(shí)體上下位關(guān)系有很多爭(zhēng)議。詞法模式匹配方法有著非常明顯的稀疏性問(wèn)題[8]。一些研究也顯示該方法非常依賴語(yǔ)言特征,在中文語(yǔ)料中的效果很差[15,17]。同時(shí),對(duì)于詞嵌入方法的質(zhì)疑聲也有很多。Roller等[19]的研究表明,詞嵌入方法的模型效果非常依賴于數(shù)據(jù)集。一些研究也顯示詞嵌入方法并沒(méi)有真的學(xué)習(xí)到上下位關(guān)系[20~21]。目前對(duì)于有監(jiān)督任務(wù),在SemEval-2018 task 9[22]所提供的數(shù)據(jù)集上Dash等[23]提出的SPON神經(jīng)網(wǎng)絡(luò)取得了廣泛域數(shù)據(jù)集上的取得最優(yōu)成績(jī),然而其在醫(yī)療數(shù)據(jù)集上的表現(xiàn)并不如CRIM系統(tǒng)[24]。

      目前在實(shí)體上下位關(guān)系抽取領(lǐng)域已經(jīng)有很多研究成果,然而針對(duì)醫(yī)療領(lǐng)域的實(shí)體上下位研究還不是很多。

      3 實(shí)體上下位關(guān)系抽取綜合模型

      在醫(yī)療領(lǐng)域知識(shí)實(shí)體上下位關(guān)系抽取任務(wù)中,通常選用的語(yǔ)料是大規(guī)模的醫(yī)療文獻(xiàn)數(shù)據(jù)集。因?yàn)槲墨I(xiàn)相比廣泛域?qū)懽鞲右?guī)范而且醫(yī)療詞匯命名更有規(guī)律,所以本文將在模型中使用詞法模式匹配方法。又因?yàn)榛谠~法匹配的方法和基于詞嵌入的方法存在著互補(bǔ)性[25],且有研究表明在領(lǐng)域內(nèi)基于詞嵌入的方法有著更好的表現(xiàn)[26],因此本文將結(jié)合兩種方法構(gòu)成綜合模型。

      在綜合模型中,基于詞法模式匹配的方法也可單獨(dú)作為一個(gè)無(wú)監(jiān)督方法進(jìn)行上下位關(guān)系抽取,在該無(wú)監(jiān)督方法中,為了提高召回率和準(zhǔn)確率,其利用了PatternSim方法[16]尋找下位詞的相似詞并基于此構(gòu)造了上下位關(guān)系抽取和可能性計(jì)算算法;基于詞嵌入的抽取模型引入了分段線性投影的方法,改造了上下位關(guān)系判別模型使其更加適應(yīng)上下位關(guān)系抽取任務(wù);最終本文將兩種方法進(jìn)行融合,使得兩個(gè)方法的所得信息能夠互補(bǔ)并減少單一方法帶來(lái)的錯(cuò)誤情況。

      同時(shí),相比廣泛域上的數(shù)據(jù)集,醫(yī)療領(lǐng)域的數(shù)據(jù)集詞法模式更為規(guī)范,且醫(yī)療詞匯的命名更有規(guī)律,這些特性使得詞法模式匹配在該領(lǐng)域上有著更好的表現(xiàn),因此在本綜合系統(tǒng)中,提高了詞法模式匹配方法所占權(quán)重。

      3.1 基于詞法匹配的無(wú)監(jiān)督抽取模型

      無(wú)監(jiān)督實(shí)體上下位關(guān)系抽取模型主要基于Hearst-like詞法匹配,并采用TAXI系統(tǒng)[15]中的子字符串匹配方法和PatternSim方法[16]來(lái)輔助提高召回率和準(zhǔn)確率。

      候選上下位關(guān)系抽取流程主要由兩部分組成,一部分為Hearst-like詞法模式匹配,一部分為子字符串匹配。因?yàn)橥ㄟ^(guò)Hearst詞法模式匹配和子字符串匹配抽取得到的實(shí)體對(duì)存在很多噪聲,所以需要將得到的實(shí)體對(duì)與實(shí)體詞詞典進(jìn)行對(duì)比,過(guò)濾其中不存在于詞典中的實(shí)體對(duì)。

      候選上下位關(guān)系對(duì)將被存儲(chǔ)用于后續(xù)分析,存儲(chǔ)的將不止是其上下位關(guān)系,還包含每個(gè)實(shí)體對(duì)的可能性數(shù)值。抽取的實(shí)體對(duì)的可能性算法為ppmin,由roller等[27]提出的ppmi算法改進(jìn)而來(lái):

      用P=表示從語(yǔ)料中抽取的上下位關(guān)系詞對(duì)(x,y)集合,w(x,y)表示該詞對(duì)被抽取到的次數(shù),W=w(x,y)表示全部抽取次數(shù)。p-(x)=w(x,y)/W和p+(y)=w(x,y)/W分別表示在抽取的候選實(shí)體上下位關(guān)系中x和y分別作為上位詞和下位詞的概率。

      但是ppmi所計(jì)算的并非直接的可能性,而是一種可供對(duì)比的可能度,其值域并不局限于(0,1],因此本文提出ppmin,用Sigmoid函數(shù)將ppmi的值歸一化到0到1區(qū)間。

      在實(shí)際應(yīng)用中,將e改為1.5等更小的數(shù)值,以使得Sigmoid函數(shù)更加平滑,從而增大ppmi值的區(qū)分度。

      在得到候選實(shí)體上下位關(guān)系以及關(guān)系為真的可能性的集合后,用PatternSim得到詞間相似度,而后用算法1得到最終結(jié)果。

      算法1上位詞查詢及可能性計(jì)算算法

      輸入:下位詞q

      輸出:上位詞和可能性集合H=

      1:初始化結(jié)果集合H=Cand idateHyper(q)

      2:相似詞集合C=(ci,sniq)=PatternSim(q)

      3:for each(ci),sniq∈Cdo

      4:Hi=CandidateH y per(ci)

      5: for each(h j,ppmin(ci,h j))∈Hido

      6: ifh j∈Hthen

      7:p(q,h j)=1-(1-p(q,h j))×(1-ppmin(ci,h j)×sn(ci,q))

      8: else

      9:p(q,h j)=ppmin(ci,h j)×sn(ci,q)

      10: end if

      11:end for

      12:end for

      CandidateHyper(q)函數(shù)將會(huì)返回在用詞法匹配和子字符串匹配方法抽取的q的候選上位詞hi集合,以及在抽取過(guò)程中計(jì)算的該候選詞與q之間為上下位關(guān)系的可能性ppmin(q,h i)。PatternSim(q)函數(shù)將會(huì)返回用PatternSim方法從語(yǔ)料中抽取的q的相似詞ci集合,以及在抽取過(guò)程中計(jì)算的相似度sn(q,ci)。

      3.2 基于詞嵌入的抽取方法

      目前大部分針對(duì)上下關(guān)系的基于詞嵌入的方法,都是判別模型。判別模型在應(yīng)用到抽取任務(wù)時(shí),通常做法為將大量的候選上位詞與所輸入下位詞組合,構(gòu)造多個(gè)上下位關(guān)系詞對(duì),將每個(gè)詞對(duì)都輸入到判別模型中計(jì)算上下位關(guān)系可能性。這種模式有著非常明顯的缺陷。通常情況下,候選上位詞集合會(huì)很大,全部組合后,每個(gè)詞對(duì)都放進(jìn)模型進(jìn)行計(jì)算會(huì)浪費(fèi)大量時(shí)間,同時(shí),大量的候選詞對(duì)也會(huì)導(dǎo)致模型的魯棒性不高,在預(yù)訓(xùn)練時(shí)的參數(shù)調(diào)整,將對(duì)模型效果產(chǎn)生非常大的影響,提出CRIM系統(tǒng)的論文[17]中的消融實(shí)驗(yàn)也證明了這點(diǎn)。

      為解決這一問(wèn)題,本文將分段線性投影模型和CRIM模型進(jìn)行融合。與Fu等[15]相同,本模型將上下位關(guān)系詞對(duì)依照其差值用Kmeans算法分為k個(gè)聚類(lèi)。對(duì)每個(gè)聚類(lèi)中的詞對(duì)訓(xùn)練一個(gè)線性投射矩陣φi,其可將下位詞投射到上位詞。但是在預(yù)測(cè)時(shí),由于并不知道對(duì)于特定下位詞,應(yīng)當(dāng)選用具體那個(gè)投射矩陣,因此用CRIM模型來(lái)計(jì)算投射后所構(gòu)造的k個(gè)候選上下位關(guān)系詞對(duì)為上下位關(guān)系的可能性。如圖1所示,在線性投影模型中,對(duì)于每個(gè)聚類(lèi)都會(huì)得到一個(gè)投影矩陣,從而得到k個(gè)投影矩陣,在將下位詞詞向量經(jīng)過(guò)k個(gè)投影矩陣的轉(zhuǎn)換后,將得到k個(gè)向量。隨后,分別找到這k個(gè)向量余弦相似度最高的c個(gè)詞向量。將找到的c×k個(gè)詞向量與e q輸入CRIM模型,得到上下位關(guān)系可能性,隨后挑選出可能性最高的幾個(gè)詞作為最終結(jié)果。

      圖1 基于詞嵌入的抽取模型

      方法不止適用于CRIM模型,同樣可以應(yīng)用于其他判別模型用于上位詞預(yù)測(cè)的任務(wù)。

      3.3 綜合方法

      如圖2所示,綜合方法為以上兩種方法融合而成,融合方法為以下三個(gè)部分:1)將訓(xùn)練數(shù)據(jù)集融入到詞法模式匹配模型作為候選上下位關(guān)系集合的一部分。該步驟將通過(guò)訓(xùn)練集數(shù)據(jù),重新評(píng)估每個(gè)候選詞對(duì)的可能性。2)將詞法模式匹配的結(jié)果輸入到詞嵌入模型,CRIM模型將不止判斷由線性投影所構(gòu)造的上位詞,也將計(jì)算詞法模式匹配方法所抽取的候選上下位關(guān)系。3)將兩個(gè)模型計(jì)算所得結(jié)果用如下公式計(jì)算可能性:

      圖2 綜合方法

      sup和unsup分別表示詞嵌入方法和詞法模式匹配的可能性,若一方不包含該詞對(duì),則將其視為0。這種計(jì)算方式綜合考慮了兩個(gè)系統(tǒng)對(duì)于實(shí)體上下位關(guān)系的判斷,并且也對(duì)于單個(gè)系統(tǒng)中的強(qiáng)判斷給予了關(guān)注。

      4 實(shí)驗(yàn)與分析

      本次實(shí)驗(yàn)為針對(duì)醫(yī)療知識(shí)的實(shí)體上下位關(guān)系抽取,所以本次實(shí)驗(yàn)的數(shù)據(jù)集也為醫(yī)療數(shù)據(jù)集。數(shù)據(jù)集來(lái)自SemEval-2018任務(wù)9[22]中的Subtask 2A的醫(yī)療領(lǐng)域數(shù)據(jù)集。

      表1 醫(yī)療實(shí)體上下位關(guān)系抽取實(shí)驗(yàn)結(jié)果

      表中CRIM為之前在實(shí)驗(yàn)數(shù)據(jù)集上取得最好結(jié)果的模型,CRIM_U為CRIM模型中的無(wú)監(jiān)督方法,同樣是該實(shí)驗(yàn)數(shù)據(jù)上表現(xiàn)最優(yōu)的無(wú)監(jiān)督方法,而SPON[23]則是在多個(gè)語(yǔ)言的廣泛域數(shù)據(jù)集上取得最優(yōu)實(shí)驗(yàn)結(jié)果的有監(jiān)督模型。通過(guò)對(duì)比發(fā)現(xiàn),本文構(gòu)造的綜合系統(tǒng)Hybrid在該醫(yī)療文本數(shù)據(jù)集上取得了當(dāng)前最優(yōu)的實(shí)驗(yàn)結(jié)果,相比CRIM模型在MAP、MRR、P@1和P@5指標(biāo)上分別提升了0.23%、4.40%、2.00%和0.39%。而且本文的無(wú)監(jiān)督模型Unsupervised也為當(dāng)前實(shí)驗(yàn)結(jié)果最優(yōu)的無(wú)監(jiān)督模型,相比CRIM_U無(wú)監(jiān)督模型,在MAP、MRR和P@1指標(biāo)上分別提升了0.12%、4.76%和7.80%。

      表2 對(duì)比實(shí)驗(yàn)結(jié)果

      本文的系統(tǒng)由多個(gè)部分融合而成,為評(píng)估系統(tǒng)每個(gè)部分對(duì)于整個(gè)系統(tǒng)實(shí)驗(yàn)結(jié)果的影響,將每部分單獨(dú)進(jìn)行實(shí)驗(yàn)。

      Final為最終綜合系統(tǒng)的結(jié)果;Supervised為3.2節(jié)所述模型;SupPattern為將候選集合添加入詞嵌入方法后的結(jié)果;PatternBase即為系統(tǒng)的無(wú)監(jiān)督方法;PatternSup為將訓(xùn)練集結(jié)合入模式匹配的方法。

      通過(guò)分析該實(shí)驗(yàn)結(jié)果,可得出如下結(jié)論:1)CRIM模型對(duì)于詞法模式匹配得到的候選詞對(duì)的可能性判斷并不準(zhǔn)確。2)詞法模式匹配方法和詞嵌入方法所得出結(jié)果的重合度不高,因此在綜合兩種方法后系統(tǒng)的效果提升非常明顯。

      5 結(jié)語(yǔ)

      本文提出了一種醫(yī)療實(shí)體上下位關(guān)系抽取的綜合系統(tǒng),該系統(tǒng)由兩部分融合而成,作為系統(tǒng)一部分的詞法模式匹配方法為無(wú)監(jiān)督方法,基于Hearst詞法模式匹配方法,提出了一種利用Pattern-Sim方法提高召回率的上下位關(guān)系抽取與可能性計(jì)算算法;系統(tǒng)的另外一部分為詞嵌入方法,本文提出了一種將上下關(guān)系判別模型應(yīng)用到抽取任務(wù)的方法,在本次實(shí)現(xiàn)的系統(tǒng)中,采用的是CRIM上下位關(guān)系判別模型。在實(shí)驗(yàn)所采用的醫(yī)療數(shù)據(jù)中,相比其他模型,本系統(tǒng)在所有指標(biāo)上均取得了最優(yōu)效果,同時(shí)作為系統(tǒng)一部分的無(wú)監(jiān)督模型也取得了無(wú)監(jiān)督任務(wù)的最優(yōu)效果。

      猜你喜歡
      模式匹配詞法實(shí)體
      詞法 名詞、代詞和冠詞
      基于模式匹配的計(jì)算機(jī)網(wǎng)絡(luò)入侵防御系統(tǒng)
      電子制作(2019年13期)2020-01-14 03:15:32
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      具有間隙約束的模式匹配的研究進(jìn)展
      OIP-IOS運(yùn)作與定價(jià)模式匹配的因素、機(jī)理、機(jī)制問(wèn)題
      應(yīng)用于詞法分析器的算法分析優(yōu)化
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      談對(duì)外漢語(yǔ)“詞法詞”教學(xué)
      泗水县| 理塘县| 遂溪县| 瓦房店市| 霍邱县| 杨浦区| 满洲里市| 乌拉特后旗| 阿拉善盟| 扎囊县| 和硕县| 桂东县| 柳江县| 天等县| 循化| 台山市| 滨州市| 进贤县| 梧州市| 九龙县| 石泉县| 临江市| 无锡市| 汾西县| 福安市| 平湖市| 武宁县| 若尔盖县| 西吉县| 隆回县| 碌曲县| 眉山市| 崇义县| 台南市| 南昌市| 两当县| 河间市| 阿坝| 兴海县| 保德县| 博白县|