• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于知識組織系統(tǒng)的生物醫(yī)學文本挖掘研究

      2016-09-23 02:40:40中國醫(yī)學科學院醫(yī)學信息研究所北京100020
      數(shù)字圖書館論壇 2016年4期
      關鍵詞:詞表生物醫(yī)學本體

      錢 慶(中國醫(yī)學科學院醫(yī)學信息研究所,北京 100020)

      基于知識組織系統(tǒng)的生物醫(yī)學文本挖掘研究

      錢慶
      (中國醫(yī)學科學院醫(yī)學信息研究所,北京 100020)

      隨著生物醫(yī)學信息技術的飛速發(fā)展,生物醫(yī)學文獻呈“指數(shù)型”增長,單純依靠人工閱讀獲取和理解所需知識變得異常困難,如何從海量生物醫(yī)學文獻中整合已有知識、挖掘新知識成為當前研究熱點。生物醫(yī)學領域的知識組織系統(tǒng)建設相比其他領域更加規(guī)范和完整,為生物醫(yī)學文本挖掘奠定了基礎,大量基于知識組織系統(tǒng)的文本挖掘方法、系統(tǒng)得到快速發(fā)展。本文主要梳理現(xiàn)有醫(yī)學知識組織系統(tǒng),歸納生物醫(yī)學文本挖掘的主要流程,按照挖掘任務探討當前的主要研究和進展情況,并進一步分析基于知識組織系統(tǒng)的生物醫(yī)學文本挖掘的特點,對知識組織系統(tǒng)在生物醫(yī)學文本挖掘中發(fā)揮的主要作用和當前研究面臨的挑戰(zhàn)進行總結,以期為生物醫(yī)學工作者提供借鑒。

      知識組織系統(tǒng);文本挖掘;信息檢索;信息抽取;知識發(fā)現(xiàn)

      1 引言

      隨著生物醫(yī)學信息技術的飛速發(fā)展,生物醫(yī)學信息資源增長快速,特別是文獻資源呈“指數(shù)型”增長。PubMed是生物醫(yī)學文獻的主要倉儲,包括MEDLINE、生命科學期刊和在線圖書等,現(xiàn)有數(shù)據(jù)2 300多萬條,以每年100多萬篇的速度增長,并且這個數(shù)字在未來還會不斷增加。在科學領域的開放獲取期刊中,生物醫(yī)學資源也是數(shù)量最多、增長最快的。急劇增長的生物醫(yī)學文獻為生物醫(yī)學研究提供了豐富的資源,但是也造成信息獲取的困難。因為大多數(shù)信息都隱含在無結構或者半結構的文本中,采用自然語言描述。自然語言雖然有助于人們直接理解和交流,但缺乏規(guī)范性,計算機難以理解。文本挖掘能夠幫助人們從大量非結構化、半結構化生物醫(yī)學文本中挖掘提取隱含的、事先不知道的但又具有潛在價值的信息和知識,現(xiàn)在被廣泛應用于生物醫(yī)學研究中,如生物醫(yī)學實體識別、藥物發(fā)現(xiàn)、靶標選擇、藥物副作用識別、蛋白質(zhì)交互作用預測等方面。大量國際會議如BioNLP、SIGIR、BioCreative、TREC Genomics Track等,提出生物醫(yī)學文本挖掘的任務,通過不同方法進行探索和實踐,推動本領域研究的發(fā)展。在生物醫(yī)學文本挖掘過程中,不可避免地需要應用大量特定領域知識,利用知識組織系統(tǒng),特別是醫(yī)學知識組織系統(tǒng)可以對概念進行規(guī)范、知識組織序化、關系發(fā)現(xiàn)和推理等,能夠有助于提高人們獲取新知識及其關聯(lián)的能力。

      2 醫(yī)學知識組織系統(tǒng)

      醫(yī)學知識組織系統(tǒng)(Medical Knowledge Organization Systems,MedKOS)涵蓋醫(yī)學領域中的各種詞匯列表、概念及概念間關系、分類體系及相應代碼標識等,其對醫(yī)學知識內(nèi)容、概念及其相互關系進行描述和組織,具有詞義消歧、同義詞和近義詞的控制、揭示概念之間的語義關系-等級關系、揭示概念之間的語義關系-非等級(相關)關系、揭示事物的類型及關系類型、描述事物的屬性特征等功能[1]。醫(yī)學知識組織系統(tǒng)形式多樣,包括一體化語言系統(tǒng)、本體、敘詞表、語義網(wǎng)絡、分類表、權威規(guī)范術語表等。典型代表有醫(yī)學主題詞表(Medical Subject Headings,MeSH)、一體化醫(yī)學語言系統(tǒng)(Unified Medical Language System,UMLS)以及各種醫(yī)學本體等。MeSH詞表是由美國國立醫(yī)學圖書館(National Library of Medicine,NLM)編制的權威主題詞表,在醫(yī)學領域被廣泛使用。1954年MeSH正式對外發(fā)布,1979年授權中國醫(yī)學科學院醫(yī)學信息研究所開始中文翻譯,2007年推出網(wǎng)絡版在線查詢系統(tǒng)MeSH Browser。UMLS由NLM 于1986年主持啟動,是生物醫(yī)學領域、跨語言多表集成的知識組織系統(tǒng),2015AB版集成了來自超過190萬個來源詞表的320多萬個概念和128萬個唯一概念名稱,在醫(yī)療信息系統(tǒng)、病案系統(tǒng)、文本自動標注、智能檢索等領域廣泛應用。醫(yī)學本體是對生物醫(yī)學領域共享概念的明確形式化、規(guī)范化說明,也是生物醫(yī)學文本挖掘中非常重要的知識組織系統(tǒng)之一,生物醫(yī)學領域已建立大量本體,如基因本體(Gene Ontology,GO)、解剖學本體(The Foundational Model of Anatomy,F(xiàn)MA)、通用解剖參考本體(Common Anatomy Reference Ontology,CARO)、解剖實體本體(Anatomical Entity Ontology,AEO)、轉化醫(yī)學本體(Translational Medicine Ontology,TMO)、序列本體(Sequence Ontology,SO)、蛋白質(zhì)本體(Protein Ontology,PRO)以及語言、百科和命名的通用架構(Generalized Architecture for Languages,Encyclopedias and Nomenclatures,GALEN)等。最常用的GO,其最初收錄的基因信息來源于3個模式生物數(shù)據(jù)庫:果蠅、酵母和小鼠,隨后相繼收錄了更多數(shù)據(jù),包括國際上主要的植物、動物和微生物基因組數(shù)據(jù)庫。GO通過控制注釋詞匯的層次結構,使研究人員能夠從不同層面查詢和使用基因注釋信息。從整體上來看,GO注釋系統(tǒng)是一個有向無環(huán)圖(Directed Acyclic Graphs,DAG),包含三個分支,即生物學過程(Biological process)、分子功能(Molecular function)和細胞組分(Cellular component)。注釋系統(tǒng)中每一個結點(node)都是基因或蛋白質(zhì)的一種描述,結點之間保持嚴格的關系,即“is a”或“part of”。開放生物醫(yī)學本體(Open Biomedical Ontologies,OBO)是一系列關于生物和醫(yī)學本體的集合。其中有些本體是通用的,應用于所有的生物體;有些本體是特殊的,只局限于某個領域。除此之外,還有ConceptWiki、Wikigenes、Wikipedia等。李丹亞等對醫(yī)學知識組織系統(tǒng)進行了系統(tǒng)性總結,對203部醫(yī)學知識組織系統(tǒng)的特征、構建模式等進行了分析和歸納[2],如表1所示。

      Bodenreider也總結了生物學文本挖掘中常用的詞典、術語集和本體,介紹了它們在實體識別和關系抽取中的應用[3]。

      表1 醫(yī)學知識組織系統(tǒng)[2]

      續(xù)表

      3 生物醫(yī)學文本挖掘的主要流程與典型應用

      如圖1所示,生物醫(yī)學文本挖掘的主要目標是通過計算機輔助將非結構化或半結構化數(shù)據(jù)轉換為結構化數(shù)據(jù),將隱性知識轉變?yōu)轱@性知識,幫助研究者進行知識發(fā)現(xiàn)。它的主要流程包括信息檢索、信息抽取和知識發(fā)現(xiàn)三個步驟,這三個步驟也是生物醫(yī)學文本挖掘的主要任務。信息檢索的目標是獲取關于某一主題的相關文本;信息抽取是抽取已定義類型的信息,如概念、實體或關系;知識發(fā)現(xiàn)是幫助從文本中抽取出潛在知識或基于文本推理獲取未知的新知識。這三個步驟相互支撐,信息檢索的結果可以縮小后兩個步驟處理的文獻數(shù)據(jù)范圍,而信息抽取及知識發(fā)現(xiàn)的結果可以用于進一步優(yōu)化信息檢索結果,如提供深入文本內(nèi)容的高級信息檢索,提供相關類型實體、概念、實體間的隱含關系等。相比其他領域,生物醫(yī)學領域的語義資源建設更加規(guī)范和完整,大量知識組織系統(tǒng)為文本挖掘奠定了基礎。在生物醫(yī)學文本挖掘過程中,知識組織系統(tǒng)被作為資源、工具、標準規(guī)范或?qū)<抑R等,發(fā)揮了重要作用。其中包含的大量術語,以及以樹狀或網(wǎng)狀結構記錄的術語間的關聯(lián),可用于支持生物醫(yī)學文本挖掘應用。同時,文本挖掘的結果所生成的結構化知識也可以用于構建知識組織系統(tǒng),用于豐富詞表或本體的實體及語義關系。下面主要按照這三個關鍵任務,組織、論述基于知識組織系統(tǒng)的生物醫(yī)學文本挖掘的最新研究情況,并分析和歸納知識組織系統(tǒng)在其中的具體作用。

      圖1 生物醫(yī)學文本挖掘流程

      3.1 信息檢索

      傳統(tǒng)信息檢索方法如關鍵詞檢索或布爾邏輯檢索等具有一定缺陷,如用戶輸入的檢索詞可能不能充分代表其真實需求;檢索系統(tǒng)對文本的標引不能完全表達文獻的內(nèi)容,特別是缺乏考慮信息資源之間的語義關系,不能提供深層次的信息關聯(lián);檢索結果使用線性排序,導致用戶不能從多維度探測檢索結果。針對現(xiàn)有信息檢索系統(tǒng)難以滿足用戶知識獲取需求的問題,大量具有標準化可控詞匯并具有層次結構(樹狀或網(wǎng)狀)的知識組織系統(tǒng)被引入檢索系統(tǒng)中,用于對生物醫(yī)學文獻進行深度標引、拓展用戶查詢、對信息資源進行深度語義關系提取和分析、對檢索結果進行多層次或多維揭示等,實現(xiàn)基于語義的知識檢索和智能檢索。PubMed是基于WEB的生物醫(yī)學信息檢索系統(tǒng),它能自動地為輸入的檢索詞尋找相應的MeSH詞,用戶利用MeSH詞能找出所有有關該主題的文獻,提高了檢索的準確性和專指性。GoPubMed使用GO和MeSH標引檢索結果,將來自GO、MeSH及UniProt的術語映射到PubMed數(shù)據(jù)庫的文獻中,生成基于本體的檢索結果瀏覽,并對檢索結果進行組織、分類,提供與檢索詞相關的來自GO等本體的相關術語[4]。美國孟菲斯大學的CVPIA實驗室開發(fā)了SEGoPubMed檢索系統(tǒng),該系統(tǒng)以PubMed為數(shù)據(jù)源,利用GO本體,在PubMed檢索時使用潛在語義分析技術和語義相關度排序大大提高了查準率和查全率[5]。為了解決研究者的問題,如“哪些疾病和一個特定基因相關”或“哪些化學物質(zhì)和一種特定疾病相關”,現(xiàn)有研究也構建了能夠揭示這些關聯(lián)的檢索系統(tǒng)。FACTA是一個基于MEDLINE數(shù)據(jù)庫摘要的文本搜索引擎,用于查找關聯(lián)的生物醫(yī)學概念,不僅標引了文本中的詞,而且標引了概念,能夠讓用戶進行靈活查詢并且用戶可以看到來自MEDLINE的文獻片段,包括檢索詞或概念的關聯(lián)證據(jù)[6],如圖2所示。FACTA覆蓋六大類生物醫(yī)學概念,包括人類基因/蛋白質(zhì)、疾病、癥狀、藥物、酶和化學化合物,通過詞典匹配判斷這些概念是否出現(xiàn)在文本中。一共標引了80 260個唯一概念,使用UniProt訪問號作為基因/蛋白質(zhì)的概念ID,收集了來自多個知識組織系統(tǒng)的基因/蛋白質(zhì)的名稱和同義詞,疾病和癥狀主要來自UMLS,藥物、酶和化學化合物的概念ID和名稱則來自HMDB、KEGG和DrugBank等數(shù)據(jù)庫。

      圖2 FACTA檢索結果[6]

      PubOnto也是基于本體的MEDLINE文獻瀏覽檢索系統(tǒng),使用來自OBO的多種本體,包括GO、Foundational Model of Anatomy(FMA)、Mammalian Phenotype Ontology、Environment Ontology等,幫助研究者從不同角度瀏覽文獻,并快速定位最相關的MEDLINE記錄用于進一步研究[7]。PubOnto如圖3所示,基于AdobeFlex3.0平臺,將本體術語自動映射到MEDLINE摘要,提供交互式探索和檢索結果過濾,交互的本體過濾模式有助于找到不同本體間的交叉文獻。PubOnto還提供定制檢索、客戶端過濾、定制本體檢索、引文鏈接到PubMed、概念鏈接到Wikipedia、可視化統(tǒng)計分析、對檢索文獻的MeSH進行詞頻統(tǒng)計和打分等功能。

      圖3 PubOnto的檢索結果[7]

      3.2 信息抽取

      信息抽取包括對生物醫(yī)學文本中的概念、實體(如疾病、癥狀、藥物、基因、蛋白質(zhì)、器官、化學物質(zhì)等)及各種關系(基因間的關系、蛋白質(zhì)間的關系、基因和疾病間的關系、疾病和藥物間的關系、藥物和治療間的關系等)的抽取。特別是隨著生物醫(yī)學領域?qū)ι飻?shù)據(jù)保存、編審的日益關注,計算機實體抽取技術得到進一步促進和發(fā)展,用以輔助人工編審。

      3.2.1 概念及實體識別

      典型的概念識別系統(tǒng)是NLM開發(fā)的初步標引系統(tǒng)MetaMap,用于圖書館半自動和全自動的生物醫(yī)學文獻標引。其基于UMLS敘詞表通過切分、產(chǎn)生變形體、檢索候選詞、候選詞的評價、建立匹配等一系列流程,將生物醫(yī)學文本與UMLS超級詞表中的概念進行匹配和篩選排序,能夠有效識別文本中來自UMLS的概念。UMLS每一次改版,MetaMap也需要更新其數(shù)據(jù)庫文件,包括預先計算變形詞表、語義類型和MeSH樹狀結構號的信息,以及按照超級詞表中含有單詞的字串索引[8]。

      實體識別是對詞或短語的識別,并將分類對應到預先定義的分類上,如疾病、癥狀、藥物或基因?,F(xiàn)有實體識別方法可歸納為三類,分別為基于詞典的實體識別、基于規(guī)則的實體識別和基于機器學習的實體識別。基于詞典的實體識別方法是最基礎的識別方法,識別來自詞表等資源中的實體名稱,如使用ICD識別疾病名稱、使用GO識別基因名稱等,能夠保證識別的準確率,但是也存在局限性,因為很多實體不一定會在已有詞典中出現(xiàn),因此,一般會與基于規(guī)則的方法結合使用。Fang等開發(fā)的一個癌癥命名實體識別器MeinfoText系統(tǒng),采用結合癌癥詞典和基于正則表達的方法挖掘基因甲基化和癌癥關聯(lián)信息[9]。UEMUC3M是一個基于本體的生物醫(yī)學文本的實體識別系統(tǒng),能夠用于識別藥學領域中的化學物質(zhì)[10]。該系統(tǒng)通過應用生物醫(yī)學本體和外在資源,決定是否將識別的術語作為一個藥品名稱。從文本中找到概念的過程被稱為Megrep,又分為兩個步驟:首先掃描、識別實體;其次,通過規(guī)則對實體分類。識別過程是利用UMLS和藥物領域本體、主藥物數(shù)據(jù)庫本體(Master Drug Data Base,MDDB)、國家藥物數(shù)據(jù)文件(National Drug Data File,NDDF)、藥物發(fā)現(xiàn)調(diào)查本體(Ontology for Drug Discovery Investigetions,ODDI)等進行藥物名稱識別。鑒于基于規(guī)則和基于詞典的實體識別存在不足,大量基于機器學習的生物醫(yī)學實體識別方法如基于HMM的方法、基于SVM的方法、基于CRF的方法等被提出。機器學習方法需要使用訓練集進行模型訓練。訓練集是經(jīng)人工或機器已經(jīng)標注實體特征的文本集。實體特征可歸納為5類:語言特征、拼寫特征、形態(tài)學特征、上下文特征和詞典特征[11]。其中,詞典特征使用來自特定領域的術語或?qū)嶓w名稱和文本中的術語進行匹配和識別,用于進一步優(yōu)化實體識別功能。

      PubTator是基于網(wǎng)絡用于幫助人工生物編審(biocuration)和文本注釋的工具[12]。它支持對PubMed檢索結果的標注,識別的生物醫(yī)學實體包括基因、化學物質(zhì)、疾病、變異、物種,標注結果如圖4所示。它由多種實體識別工具組成,包括跨物種基因標注工具GenNorm[13]、基于成對學習排序的疾病實體識別工具Dnorm[14]、化學命名實體識別工具tmChem[15]、基因標準化的物種識別工具SR4GN[16]、抽取序列變異的工具tmVar[17]。這些工具使用了MeSH、MEDIC和來自NLM的詞典用于實體特征訓練和詞典查找。PubTator提供在線使用和調(diào)用URL的使用方式。

      圖4 PubTator文本標注結果[12]

      NCBO Annotator是基于本體的網(wǎng)絡服務,用于對公共數(shù)據(jù)集文本進行標注[18]。其使用來自BioPortal和UMLS的本體概念,便于數(shù)據(jù)集成和轉化發(fā)現(xiàn)。如圖5所示,其工作流程包括兩個關鍵步驟:(1)直接注釋:通過使用一個由來自UMLS和NCBO本體的術語(概念名稱和同義詞)構成的詞典進行語法概念識別;(2)語義拓展注釋:組件使用本體語義拓展直接生成注釋的集合,其中用到的組件包括is_a傳遞閉包、本體間映射、相似度算法等。

      圖5 NCBO Annotator的工作流程[18]

      3.2.2 關系抽取

      關系抽取是信息抽取的關鍵技術之一,比實體抽取更為復雜。通過關系抽取可以建立實體之間的信息關聯(lián),用于構建領域本體、支持文本聚類、構建生物醫(yī)學知識網(wǎng)絡、構建自動問答系統(tǒng)等。關系抽取的主要方法包括基于共現(xiàn)的抽取、基于自然語言處理的抽取、基于詞典的抽取、基于模式匹配的抽取、基于機器學習的方法等。其中,基于詞典的關系抽取主要利用生物醫(yī)學詞表、本體、語義網(wǎng)絡等中的同義關系、層級關系、具體類型關系等進行關系的抽取。基于模式匹配的方法,通過定義規(guī)則進行關系抽取,依賴于規(guī)則的數(shù)量,難以涵蓋全部關系。醫(yī)學信息檢索平臺CoremineMedical(見圖6)利用本體語言技術支持MEDLINE數(shù)據(jù)庫的相關數(shù)據(jù)、文獻、信息、知識資源的檢索、分析和獲?。?9],通過構建術語關聯(lián)共現(xiàn)網(wǎng)絡和術語類型組織來發(fā)現(xiàn)相關的概念,這些概念來自MeSH、GO等知識組織系統(tǒng)。

      圖6 CoreMine medical的主要流程[19]

      SemRep是基于UMLS語義關系的工具,首先利用MetaMap識別文本中的概念及其語義類型,而后對文本進行淺層語義分析,根據(jù)UMLS語義網(wǎng)絡定義的54種關系,判斷兩個概念之間的關系[20]。Embarek和Ferret提出的MeTAE(Medical Texts Annotation and Exploration)系統(tǒng)從文本中抽取實體和關系[21],其對MetaMap進行了改進,用于抽取實體并提出一種基于語言模式的關系抽取方法,并基于UMLS語義網(wǎng)絡中的語義類型進行過濾和識別,關系結構存儲為RDF三元組格式。RINDFLESCH基于UMLS,利用領域知識和語法解析構建了ARBITER,使用兩階段法識別分子作用關聯(lián)(Molecular Binding):首先利用MetaMap、語法解析器等識別作用關聯(lián)術語集;其次,識別作用關聯(lián)術語作為關系的論元(agruments)[22]。Sharma等提出構建以動詞為中心的關系抽取系統(tǒng),利用UMLS語義網(wǎng)絡、WordNet和VerbNet從生物醫(yī)學文獻中識別包含關系的句子,而后利用深層解析器和語義角色分析器抽取關系的描述短語,并識別及抽取涉及的生物醫(yī)學實體,最后輸出抽取的關系[23]。他將其應用于MEDLINE文摘構成的三個數(shù)據(jù)集進行測評,其算法達到0.86~0.95的準確率和0.88~0.92的召回率。Pustejovsky等使用UMLS和Brill詞法解析器,通過淺層語法解析,從文獻摘要中抽取蛋白質(zhì)抑制關系信息[24]。

      3.3 知識發(fā)現(xiàn)

      基于文獻的知識發(fā)現(xiàn),包括開放發(fā)現(xiàn)和閉合發(fā)現(xiàn)模式,可以通過開放發(fā)現(xiàn)模式生成新的假設,或通過閉合發(fā)現(xiàn)模式檢驗一個假設,從而發(fā)現(xiàn)新的知識。基于文獻的知識發(fā)現(xiàn)理論是1986年由美國芝加哥大學的醫(yī)學教授D. R.Swanson最早提出的,指出非相關的生物文獻中可能隱含大量不為人知的科學知識[25]。Swanson將基于文獻的知識發(fā)現(xiàn)定義為:如果有兩類文獻集A和C,其中,A討論了概念M和概念集B之間的關系,而C則討論了概念N和概念集B之間的關系,但是沒有任何文獻直接討論過M和N的關系,那么M與N之間通過共同的橋梁B,隱含地存在某種關系,這就可能是一個新的科學發(fā)現(xiàn)。這時的A和C被稱為非相關互補的文獻,而概念集B則被稱為中間集。他將該理論應用于發(fā)現(xiàn)鎂缺乏與神經(jīng)系統(tǒng)疾病、消炎痛與阿爾茲海默病、雌激素與阿爾茲海默病、游離鈣磷脂酶A2與精神分裂癥、鎂缺乏與偏頭痛以及可作為生物武器的潛在病毒間的關系。Swanson教授與Neil Smalheise構建了Arrowsmith系統(tǒng),用于處理從PubMed數(shù)據(jù)庫檢索出的A和C文獻集,而后對中間集B進行過濾和排序,按照相對頻次排列的列表提供給用戶[26]。Smalheise將UMLS引入Arrowsmith系統(tǒng)的處理過程中,基于UMLS對中間集B進行語義歸類、篩除低頻共現(xiàn)詞、基于共現(xiàn)的統(tǒng)計學模型對中間集B聚類、去低頻特征詞等[27]。BITOLA(見圖7)也是一個基于文獻的交互式生物醫(yī)學發(fā)現(xiàn)支持系統(tǒng),系統(tǒng)采用閉合式和開放式兩種發(fā)現(xiàn)模式,目標是幫助生物醫(yī)學研究者發(fā)現(xiàn)生物醫(yī)學概念間潛在的新關系[28]。系統(tǒng)采用來自MeSH中的主題詞表達概念和來自HUGO的人類基因名稱。

      Hu提出一種新的基于語義分析的知識發(fā)現(xiàn)系統(tǒng)(Biomedical Semantic-based Association Rule System,Bio-SARS),該系統(tǒng)使用MeSH詞表示文獻內(nèi)容,通過UMLS語義類型和基于語義的關聯(lián)規(guī)則減少候選術語的數(shù)量和過濾無關聯(lián)的關系[29]。Litlinker系統(tǒng)使用基于文獻的開放知識發(fā)現(xiàn)系統(tǒng),利用MetaMap獲取MeSH術語[30]。Literby系統(tǒng)使用兩階段方法,利用MetaMap獲取MeSH術語,通過UMLS過濾數(shù)據(jù)類型[31]。Srinivasan等開發(fā)了文本挖掘系統(tǒng)Manjal,該系統(tǒng)使用MeSH詞和關鍵詞來代表文獻的內(nèi)容,根據(jù)語義類型來過濾詞匯并利用詞的權重確定詞間的關系[32]。

      圖7 BITOLA挖掘結果界面

      4 特點分析

      綜上可知,生物醫(yī)學文本挖掘得到快速發(fā)展,基于知識組織系統(tǒng)的生物醫(yī)學文本挖掘體現(xiàn)出如下特點:

      (1)知識組織系統(tǒng)在文本挖掘各階段中發(fā)揮了重要作用。其可歸納為:①在信息檢索中,被用于文獻內(nèi)容的標引、用戶檢索詞的擴展、對檢索結果的組織瀏覽、作為外部注釋資源解釋和理解文本內(nèi)容、檢索結果的可視化;②在信息抽取中,可用于對術語進行匹配映射、消歧去重、規(guī)范表達,用于術語或?qū)嶓w分類及進行訓練集的標注,用于抽取結果后處理優(yōu)化;③在知識發(fā)現(xiàn)中,被用于抽取實體和關系類型的過濾。此外,通過知識組織系統(tǒng)中包含的可控詞匯對生物醫(yī)學文獻進行語義標注,搭建起生物醫(yī)學文獻與生物醫(yī)學數(shù)據(jù)之間的橋梁。

      (2)生物醫(yī)學文獻挖掘結果也可用于構建知識組織系統(tǒng)。知識組織系統(tǒng)和生物醫(yī)學文本挖掘過程相互支撐,從本體中獲得的實體或關系可以支持文本挖掘過程;反之,通過生物醫(yī)學文本挖掘識別的概念、術語、關系,也可以用于構建本體和詞表,或?qū)ΜF(xiàn)有本體詞表中的術語或語義關系的語義。

      (3)面向特定文本挖掘任務選擇特定知識組織系統(tǒng)。在現(xiàn)有生物醫(yī)學文本挖掘中,需根據(jù)特定目標選擇相應的本體或詞表。此外,現(xiàn)有生物醫(yī)學文本挖掘研究中使用單一本體或詞表難以滿足應用需求,而需使用集成詞表(如UMLS)、集成本體(OBO)或?qū)⒍嘣~表或多本體聯(lián)合使用以滿足挖掘應用。

      (4)多方法融合的生物醫(yī)學文本挖掘。無論是實體識別還是關系抽取,單一識別或抽取方法往往不能取得較好的效果。通過現(xiàn)有研究可以發(fā)現(xiàn),研究者趨向于多方法融合的挖掘方法,用于彌補單一方法的不足,提高實體識別及關系抽取的準確率和召回率。

      5 結語

      基于知識組織系統(tǒng)的生物醫(yī)學文本挖掘取得了一定的進展,而仍然面臨諸多挑戰(zhàn)。雖然大量醫(yī)學知識組織系統(tǒng)被用于生物醫(yī)學挖掘系統(tǒng)中,但是當前醫(yī)學知識組織系統(tǒng)對生物醫(yī)學術語的覆蓋有限,不能覆蓋所有文獻中出現(xiàn)的術語,如UMLS敘詞表中記錄了超過1 600萬個關系,而這些關系也不能全面反映文獻中術語間或?qū)嶓w間的關系;并且,當前文本挖掘研究逐漸趨向面向開放資源的抽取任務。因此,如何優(yōu)化現(xiàn)有的基于知識組織系統(tǒng)的生物醫(yī)學文本挖掘方法,成為未來研究需要進一步思考的問題。

      [1] 曾蕾.在瀏覽和檢索界面設計中利用知識組織系統(tǒng)(KOS)[EB/OL].[2015-12-01]. http://www.libnet.sh.cn/upload/htmleditor/File/071213121516.pdf.

      [2] 李丹亞,李軍蓮,李曉瑛,等.醫(yī)學知識組織體系發(fā)展現(xiàn)狀及研究重點[J].數(shù)字圖書館壇, 2012(12):12-20.

      [3] Bodenreider O. Lexical, Terminological, and Ontological Resources for Biological Text Mining[EB/OL].[2015-12-01].http://www.artechhouse. com/uploads/public/documents/chapters/ananiadou_984_samplech03. pdf.

      [4] Delfs R ,Doms A, Kozlenkov A,et al.GoPubMed:ontology-based literature search applied to Gene Ontology and PubMed[EB/OL].[2015-12-01]. http://www.biotec.tu-dresden.de/fileadmin/groups/schroeder/group/ papers/gopubmedGCB.pdf.

      [5] Yeasin M,Vanteru B,Shaik J,et al. i-SEGOPubmed: a web interface for semantic enabled browsing of PubMed using Gene Ontology[EB/ OL].[2015-12-01]. http://www.biomedcentral.com/content/pdf/1471-2105-9-S7-P20.pdf.

      [6] Tsuruoka Y, Tsujii J, Ananiadou S. FACTA: a text search engine for finding associated biomedical concepts[EB/OL].[2015-12-01]. http:// bioinformatics.oxfordjournals.org/content/24/21/2559.long.

      [7] PubOnto provides multiple ontologies from the Open Biomedical Ontology [EB/OL].[2015-12-01].http://brainarray.mbni.med.umich.edu/ brainarray/prototype/PubOnto/.

      [8] 張云秋,冷伏海.MetaMap的文本映射原理及其對信息檢索效果的影響[J].情報學報, 2007, 26(3):344-349.

      [9] Yu C F, Po T L, Hong JD,et al. MeInfo Text2.0:gene methylation and cancer relation extraction from biomedical literature[J].BMC BIOINFOR MATICS,2011,12(1):471.

      [10] Fernando.UEM-UC3M: An Ontology-based named entity recognition system for biomedical texts[EB/OL].[2015-12-01].http://aclweb.org/ anthology/S/S13/S13-2104.pdf.

      [11] Prikshit S. A survey on Name Entity Extraction in the Biomedical Domain [EB/OL].[2015-12-1]. http://sifaka.cs.uiuc.edu/~sondhi1/survey1. pdf.

      [12] Wei C H, Kao H Y, Lu Z Y. PubTator:A PubMed-like interactive curation system for document triage and literature curation[EB/OL].[2015-12-01]. http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/PubTator/tutorial/ PubTator.pdf.

      [13] GenNorm[EB/OL].[2015-12-01].http://ikmbio.csie.ncku.edu.tw/GN/.

      [14] Leaman R, Dogan R I, Lu Z Y. DNorm:Disease Named Entity Recognition and Normalization with Pairwise Learning to Rank[EB/ OL].[2015-12-01]. http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/ DNorm/.

      [15] Leaman R,Wei C H, Lu Z Y. tmChem: a high performance approach for chemical named entity recognition and normalization [EB/ OL].[2015-12-01]. http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/ tmChem/.

      [16] Wei C H, Kao H Y, Lu Z Y. SR4GN:a species recognition software tool for gene normalization [EB/OL].[2015-12-01].http://www.ncbi.nlm.nih. gov/CBBresearch/Lu/downloads/SR4GN/.

      [17] Wei C H,Harris B R, Kao H Y,et al.tmVar:A text mining approach for extracting sequence variants in biomedical literature [EB/ OL].[2015-12-01]. http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/pub/ tmVar/.

      [18] Jonquet C, Shah N H, Musen M A,et al. NCBO Annotator: Semantic Annotation of Biomedical Data[EB/OL].[2015-12-01]. http://www.lirmm. fr/~jonquet/publications/documents/Demo-ISWC09-Jonquet.pdf.

      [19] Coremine medical [EB/OL].[2015-12-01]. http://www.coremine.com/ medical/#search?ids=519944&tt=8191&org=hs&i=5199441.

      [20] Semantic Knowledge Representation[EB/OL].[2015-12-01].http://semrep. nlm.nih.gov/.

      [21] Abacha A B, Zweigenbaum P. Automatic extraction of semantic relations between medical entities: a rule based approach[J].JOURNAL OF BIOMEDICAL SEMANTICS,2011,2(5): 1-11.

      [22] Rindflesch T C, Rajan J V, Hunter L. Extracting Molecular Binding Relationships from Biomedical Text[EB/OL].[2015-12-01]. http://165.112.8.46/files/archive/pub2000016.pdf.

      [23] Sharma A, Swaminathan R,Yang H. A Verb-centric Approach for Relationship Extraction in Biomedical Text[EB/OL].[2015-12-01]. http:// cs.sfsu.edu/~huiyang/publications/ICSC10-rel-ex.pdf.

      [24] Verhagen M, Pustejovsky M. Medstract - The NextGeneration[EB/ OL].[2015-12-01]. http://www.aclweb.org/anthology/W11-0224.

      [25] Swanson D R, Smalheiser N R, Bookstein A. Information discovery from complementary literatures:categorizing viruses as potential weapons[J]. JOURNAL OF AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY,2001,52(10):797-812.

      [26] Swanson D, Smalhesier N. An interactive system for finding complementary literatures: a stimulus to scientific discovery[J]. ARTIFICIAL INTELLIGENCE,1997,91(2):183-203.

      [27] Smalheiser N R. The Arrowsmith project:2005 status report[EB/ OL].[2015-12-01] . http://pdf.aminer.org/000/039/534/the_arrowsmith_pr oject_status_report.pdf.

      [28] Hristovski D, Peterlin B. BITOLA-Biomedical Dicovery Support System [EB/OL].[2015-12-01]. http://ibmi.mf.uni-lj.si/bitola/.

      [29] Hu X,Yoo I, Rumm P, et al.Mining Candidate Viruses as Potential Bioterrorism Weapons from Biomedical Literature[EB/OL].[2015-12-01]. http://link.springer.com/content/pdf/10.1007/11427995_6.pdf.

      [30] Pratt W,Yildiz M. LitLinker: Capturing Connections across the Biomedical Literature[EB/OL]. [2015-12-01].http://staff.washington.edu/ melihay/publications/KCAP2003.pdf.

      [31] Weeber M. Drug Discovery as an Example of Literature-Based Discovery[EB/OL]. [2015-12-01]. http://link.springer.com/content/pdf/10. 1007/978-3-540-73920-3_14.pdf.

      [32] Sehgal A K, Srinivasan P. Manjal:A Text Mining System for MEDLINE[EB/OL]. [2015-12-01]. http://dl.acm.org/ft_gateway. cfm?id=1076192&type=pdf.

      Research on Biomedical Text Mining Based on Knowledge Organization System

      QIAN Qing
      (Chinese Academy of Medical Sciences, Institute of Medical Informatics, Beijing 100020, China)

      With the rapid development of biomedical information technology, biological medical literatures grow exponentially. It's hard to read and understand the required knowledge by manual, how to integrate knowledge from huge amounts of biomedical literatures, mining new knowledge has been becoming the current hot spot. Knowledge organization system construction in the field of biological medicine is more normative and complete than other fields, which is the foundation for biomedical text mining. A large number of text mining methodsand systems based on knowledge organization system have fast development. This paper investigates the existing medical knowledge organization systems and summarizes the process of biomedical text mining. It also summaries the researches andrecentprogressand analyzes the characteristics of biomedical text mining based on knowledge organization system. The knowledge organization systems play an important role in biomedical text mining and the challenge for the current study are summarized, so as to provide references for biomedical workers.

      Knowledge Organization System; Text Mining; Information Retrieval; Information Extraction; Knowledge Discovery

      G254

      10.3772/j.issn.1673-2286.2016.4.001

      錢慶,男,1970年生,中國醫(yī)學科學院醫(yī)學信息研究所副所長,研究員,研究方向:數(shù)據(jù)挖掘,E-mail:qian.qing@imicams.ac.cn。

      2016-01-19)

      猜你喜歡
      詞表生物醫(yī)學本體
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      芻議“生物醫(yī)學作為文化”的研究進路——兼論《作為文化的生物醫(yī)學》
      科學與社會(2022年4期)2023-01-17 01:20:04
      靈長類生物醫(yī)學前沿探索中的倫理思考
      科學與社會(2021年4期)2022-01-19 03:29:50
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      國外生物醫(yī)學文獻獲取的技術工具:述評與啟示
      圖書館建設(2018年5期)2018-07-10 09:46:44
      敘詞表與其他詞表的互操作標準
      LED光源在生物醫(yī)學中的應用分析
      《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      临夏市| 东光县| 宜黄县| 新河县| 临湘市| 航空| 潞西市| 大关县| 乐山市| 普格县| 来凤县| 阿坝县| 勐海县| 平昌县| 弥勒县| 沾益县| 广南县| 邻水| 莱阳市| 元阳县| 湖口县| 光泽县| 宁国市| 邳州市| 平南县| 陇川县| 铜山县| 安阳市| 乌海市| 建水县| 定兴县| 霍邱县| 湘潭县| 闻喜县| 崇州市| 东宁县| 望奎县| 清流县| 宜宾县| 吉林省| 卫辉市|