• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中醫(yī)文本信息抽取系統(tǒng)*

    2015-04-19 09:11:22于彤朱玲李敬華高宏杰
    關(guān)鍵詞:本體語義中醫(yī)藥

    于彤 朱玲 李敬華 高宏杰

    中醫(yī)藥文獻(xiàn)是中醫(yī)藥文化的重要載體之一,記載著歷代醫(yī)家的智慧和經(jīng)驗(yàn)。如何對(duì)浩如煙海的中醫(yī)藥文獻(xiàn)進(jìn)行系統(tǒng)梳理和深度挖掘,是中醫(yī)藥知識(shí)管理中的一個(gè)重要問題[1-2]。文本信息抽取(Text Information Extraction)是指從一段文本中自動(dòng)抽取特定信息的計(jì)算機(jī)技術(shù),它能顯著提升人類處理海量文獻(xiàn)并從中獲取知識(shí)的效率[3-4]。文本信息抽取的任務(wù)包括命名實(shí)體識(shí)別[5]、語義關(guān)系發(fā)現(xiàn)[6]、事件抽取[7]、情感分析[8]等。筆者構(gòu)建了基于本體的文本信息抽取系統(tǒng),用于輔助中醫(yī)專家從中醫(yī)文獻(xiàn)中挖掘知識(shí),并進(jìn)一步完善中醫(yī)領(lǐng)域本體系統(tǒng)。本文介紹該系統(tǒng)所使用的文本信息抽取方法,以及該系統(tǒng)的主要功能和使用情況。

    1 文本信息抽取方法

    該系統(tǒng)使用一種本體驅(qū)動(dòng)的文本信息抽取方法。本體(Ontology)是一種用于表示領(lǐng)域知識(shí)的計(jì)算機(jī)模型,它能幫助計(jì)算機(jī)更好地理解領(lǐng)域術(shù)語并處理文本內(nèi)容[9]。它定義了一個(gè)領(lǐng)域中的語義類型和語義關(guān)系,并構(gòu)建了領(lǐng)域的概念層次結(jié)構(gòu)和語義網(wǎng)絡(luò)[10]。中醫(yī)界從本世紀(jì)開始在中醫(yī)藥領(lǐng)域中引入了本體技術(shù),對(duì)該領(lǐng)域的概念和術(shù)語體系進(jìn)行系統(tǒng)性的表達(dá)[11]。其中的代表性系統(tǒng)包括中醫(yī)藥學(xué)語言系統(tǒng)和中醫(yī)古籍語言系統(tǒng)等[12-13]。本體為文本信息抽取提供了領(lǐng)域背景知識(shí),可將領(lǐng)域本體與文法分析技術(shù)相結(jié)合,從而改進(jìn)文本信息抽取的效果[9,14]。本系統(tǒng)基于中醫(yī)藥本體,從文獻(xiàn)中提取關(guān)鍵性詞匯,識(shí)別領(lǐng)域概念,進(jìn)而發(fā)現(xiàn)領(lǐng)域?qū)嶓w之間的語義關(guān)系。信息提取有2種途徑:(1)關(guān)系提取,即理解作者在文本中直接提出的顯性關(guān)系;(2)假設(shè)生成,即根據(jù)顯性關(guān)系推理出文本中并未直接提出的隱性關(guān)系。該方法包括如下4步。

    第一步、提取關(guān)鍵性詞匯。文本中僅有部分詞匯有助于機(jī)器理解文本中蘊(yùn)含的語義關(guān)系,這部分詞匯被稱為關(guān)鍵性詞匯。首先,根據(jù)應(yīng)用需求,從本體中導(dǎo)出關(guān)鍵性詞匯,創(chuàng)建領(lǐng)域詞庫(kù)。例如,在藥物發(fā)現(xiàn)應(yīng)用中,“藥物組成”“感冒”“甘草”“主治”等詞匯往往用于表示領(lǐng)域?qū)<谊P(guān)切的醫(yī)藥學(xué)關(guān)系,而“西藏”等地理名稱一般不可能構(gòu)成有意義的醫(yī)藥學(xué)關(guān)聯(lián)。又如,中醫(yī)古籍文獻(xiàn)中的某些關(guān)鍵動(dòng)詞(如“主”)往往對(duì)應(yīng)概念之間的語義關(guān)系(如“管理”),因此需要找出這些關(guān)鍵動(dòng)詞,并建立關(guān)鍵動(dòng)詞與語義關(guān)系之間的對(duì)照表。在建立關(guān)鍵性詞匯的詞庫(kù)后,利用一種詞庫(kù)驅(qū)動(dòng)的最大匹配算法,從文獻(xiàn)中提取關(guān)鍵性詞匯,從而將原始的中文文本轉(zhuǎn)化為詞匯序列。

    第二步、識(shí)別關(guān)鍵性概念。為消除領(lǐng)域知識(shí)表達(dá)中的歧義性,領(lǐng)域本體中定義了概念和詞匯之間的語義關(guān)系,包括概念的正名和異名等。機(jī)器根據(jù)領(lǐng)域本體從詞匯序列中識(shí)別對(duì)應(yīng)的概念,并判斷概念的語義類型。例如,根據(jù)本體中定義的異名關(guān)系〈甘草,藏名,‘相額爾’〉(即甘草在藏醫(yī)藥學(xué)中稱為‘相額爾’),將藏醫(yī)藥學(xué)文本中出現(xiàn)的詞匯‘相額爾’理解為概念甘草;并根據(jù)本體中定義的類型關(guān)系〈甘草,rdf:type,草藥〉,將概念甘草歸屬于草藥這個(gè)類。此后,將概念及其類別加入詞匯序列中的對(duì)應(yīng)位置,生成文本對(duì)應(yīng)的概念序列。

    第三步、抽取語義關(guān)系。通過一系列預(yù)先定義的語義模板與概念序列進(jìn)行匹配,若匹配成功則生成對(duì)應(yīng)的陳述。該過程分為3步:(1)基于領(lǐng)域本體生成一個(gè)語義模板庫(kù),其中的每個(gè)語義模板為由領(lǐng)域概念和詞匯構(gòu)成的三元組;(2)根據(jù)資源序列中出現(xiàn)的概念在模板庫(kù)中檢索對(duì)應(yīng)的一系列語義模板;(3)將每個(gè)模板與資源序列匹配,如果匹配成功,則生成對(duì)應(yīng)的陳述。例如,針對(duì)文本“[七十味珍珠丸]的[藥物組成]為:…… [相額爾] ……”,首先提取出其中的3個(gè)關(guān)鍵詞,并識(shí)別對(duì)應(yīng)的概念;其次根據(jù)本體中定義的概念類型〈七十味珍珠丸,類型,方劑〉和〈甘草(相額爾),類型,藥物〉,獲取相應(yīng)的模板〈方劑,‘藥物組成’,藥物〉;最后,將模板與資源序列匹配,從而推出陳述:〈七十味珍珠丸,包含,甘草〉。將所獲得的陳述融合為一個(gè)圖,并將其加入索引結(jié)構(gòu)中。

    第四步、推導(dǎo)假設(shè)性語義關(guān)系。根據(jù)文本中的語義信息,使用領(lǐng)域規(guī)則進(jìn)一步推導(dǎo)出假設(shè)性的語義關(guān)系。領(lǐng)域規(guī)則形如 Body Head,在Body和Head中均可出現(xiàn)變量。例如,規(guī)則R1:〈?x, 包含,?y〉 〈?y, 屬于,?x〉表示對(duì)于任意x和y,如果x包含y,那么y屬于x;根據(jù)規(guī)則R1和陳述〈七十味珍珠丸,包含,甘草〉,可以推出〈甘草,屬于,七十味珍珠丸〉。又如,規(guī)則R2:〈?x, 包含,?y〉〈?y, 具有功效,?z〉 〈?x, 具有功效,?z〉表示如果某種藥物x的成分y具有功效z,則x具有功效z;根據(jù)規(guī)則R2和〈七十味珍珠丸,包含,當(dāng)歸〉、〈當(dāng)歸,具有功效,補(bǔ)血〉可推出〈七十味珍珠丸,具有功效,補(bǔ)血〉。

    下面通過一個(gè)關(guān)于方劑生化湯的案例來解釋上述過程。下面是《中華藥典》中描述傳統(tǒng)方劑生化湯的組成和功效的部分文本:“ ……[生化湯]中重用[當(dāng)歸],補(bǔ)血活血,祛瘀生新為[君];[川芎]行血中之氣,[桃仁]活血祛瘀為[臣];[黑姜]入血散寒,溫里定痛為[佐];[炙甘草]調(diào)和諸藥為[使]。[功效]為[活血化瘀] ……”。首先,根據(jù)中醫(yī)領(lǐng)域本體,從詞匯序列中提取對(duì)應(yīng)的概念,并對(duì)概念歸類。據(jù)本體可知,生化湯為方劑的實(shí)例,當(dāng)歸、川芎、桃仁、黑姜和炙甘草為中藥的實(shí)例,活血化瘀為功效的實(shí)例。進(jìn)而,提取文中的語義關(guān)系。例如,根據(jù)模板〈方劑,藥物,‘君’〉,和序列(生化湯,當(dāng)歸,‘君’),推出:〈生化湯,君,當(dāng)歸〉。最后,根據(jù)已知的語義關(guān)系生成假設(shè)。例如,根據(jù)陳述〈生化湯,具有功效,活血化瘀〉和規(guī)則〈?x, 具有功效,活血化瘀〉 〈?x, 治療,血瘀證〉,推出假設(shè):〈生化湯,治療,血瘀證〉。提取出的語義信息構(gòu)成了如圖1所示的語義圖。

    圖1 從文本中提取出的關(guān)于方劑生化湯的信息

    2 文本信息抽取系統(tǒng)

    筆者采用上面的方法,構(gòu)建了中醫(yī)文本信息抽取系統(tǒng)。該系統(tǒng)基于本體對(duì)中醫(yī)文獻(xiàn)進(jìn)行處理,自動(dòng)識(shí)別其中出現(xiàn)的中醫(yī)概念,生成文本內(nèi)容的索引。該系統(tǒng)還能從文本中自動(dòng)發(fā)現(xiàn)語義關(guān)系,再將所發(fā)現(xiàn)的語義關(guān)系交由領(lǐng)域?qū)<疫M(jìn)行檢驗(yàn)。筆者以綜合性醫(yī)學(xué)著作《醫(yī)學(xué)綱目》等中醫(yī)古籍作為試驗(yàn)文本對(duì)該系統(tǒng)進(jìn)行了測(cè)試。該系統(tǒng)基于“中醫(yī)古籍語言系統(tǒng)”對(duì)中醫(yī)古籍進(jìn)行處理,從中提取出中醫(yī)藥領(lǐng)域概念及其語義關(guān)系,取得了良好的效果。

    圖2 文本信息抽取系統(tǒng)界面截圖(以《醫(yī)學(xué)綱目》為例)

    該系統(tǒng)還實(shí)現(xiàn)了文本語義關(guān)系管理與檢閱的功能,對(duì)從文本中發(fā)現(xiàn)的語義關(guān)系進(jìn)行集中管理,支持用戶查看語義關(guān)系在中醫(yī)文本中的用法,并完成語義關(guān)系的檢閱、分析和標(biāo)注工作。如圖2所示,該系統(tǒng)以網(wǎng)頁(yè)的形式展示《醫(yī)學(xué)綱目》古籍全文,以不同的顏色標(biāo)出文本中出現(xiàn)的中醫(yī)名詞和謂詞。該系統(tǒng)在左側(cè)建立書籍目錄導(dǎo)航,在頁(yè)面主體部分顯示全文,自動(dòng)識(shí)別文中出現(xiàn)的中醫(yī)概念并在文本右側(cè)列出,用戶可點(diǎn)擊查看概念定義。該系統(tǒng)還找出文中出現(xiàn)的謂詞,據(jù)此識(shí)別文中出現(xiàn)的語義關(guān)系。用戶也可以點(diǎn)擊查看原文中蘊(yùn)含的語義關(guān)系。該系統(tǒng)還實(shí)現(xiàn)了中醫(yī)本體加工輔助工具,將文本語義關(guān)系正式插入某個(gè)本體系統(tǒng),為中醫(yī)本體的修訂和完善提供可行的技術(shù)路徑。

    3 小結(jié)

    中醫(yī)藥文獻(xiàn)是中醫(yī)藥知識(shí)共享的主要手段。近年來,隨著文字識(shí)別等信息技術(shù)的廣泛應(yīng)用,大量的中醫(yī)藥文獻(xiàn)被轉(zhuǎn)換為數(shù)字文件、數(shù)據(jù)庫(kù)等數(shù)字資源[15]。中醫(yī)藥文獻(xiàn)的數(shù)字化,為將文本信息抽取等各種文獻(xiàn)處理技術(shù)應(yīng)用于中醫(yī)藥領(lǐng)域奠定了基礎(chǔ)。本文介紹了中醫(yī)文本信息抽取系統(tǒng),它能從中醫(yī)文獻(xiàn)中提取領(lǐng)域?qū)嶓w及語義關(guān)系,并支持用戶完成文本語義關(guān)系的檢閱、分析和標(biāo)注工作。這套系統(tǒng)能輔助中醫(yī)專家開展文獻(xiàn)知識(shí)挖掘工作,為梳理中醫(yī)藥知識(shí)體系,實(shí)現(xiàn)中醫(yī)文獻(xiàn)和知識(shí)的共享和重用提供技術(shù)支持。

    [1]劉毅.中醫(yī)古籍?dāng)?shù)字化與知識(shí)挖掘[J].圖書館工作與研究,2010,14(12):92-94.

    [2]周雪忠,崔蒙,吳朝暉,等.基于文本挖掘的中醫(yī)學(xué)文獻(xiàn)主題自動(dòng)標(biāo)引[J].中國(guó)中醫(yī)藥信息雜志,2003,10(1):71-74.

    [3]顧錚,顧平.信息抽取技術(shù)在中醫(yī)研究中的應(yīng)用[J].醫(yī)學(xué)信息,2007,20(1):27-30.

    [4]楊博,蔡?hào)|風(fēng),楊華,等.開放式信息抽取研究進(jìn)展[J].中文信息學(xué)報(bào),2014,28(4):1-11,36.

    [5]趙軍.命名實(shí)體識(shí)別、排歧和跨語言關(guān)聯(lián)[J].中文信息學(xué)報(bào),2009,23(2):3-17.

    [6]陶金火,陳華鈞,胡雪琴,等.中醫(yī)藥文獻(xiàn)語義關(guān)系圖發(fā)現(xiàn)[J].計(jì)算機(jī)科學(xué),2011,38(3):213-217,251.

    [7]吳家皋,周凡坤,張雪英,等.HMM模型和句法分析相結(jié)合的事件屬性信息抽取[J].南京師大學(xué)報(bào)(自然科學(xué)版),2014,14(1):30-34.

    [8]趙妍妍,秦兵,劉挺,等.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

    [9]丁晟春,劉逶迤,熊霞,等.基于領(lǐng)域本體和語塊分析的信息抽取的研究與實(shí)現(xiàn)[J].情報(bào)學(xué)報(bào),2010,29(1):53-58.

    [10] Gruber T R. Ontology. Entry in the Encyclopedia of Database Systems,Ling Liu and M[M]. Tamer ?zsu (Eds.), Springer-Verlag, 2008.

    [11]于彤,崔蒙,李敬華,等. 中醫(yī)藥本體工程研究現(xiàn)狀[J]. 中國(guó)中醫(yī)藥信息雜志,2013,20(7):110-112.

    [12]賈李蓉,楊碩,董燕,等.中醫(yī)藥學(xué)語言系統(tǒng)評(píng)價(jià)體系的研究與建立[J]. 中國(guó)數(shù)字醫(yī)學(xué),2012,7(10):13-16.

    [13]朱玲,尹愛寧,崔蒙,等.中醫(yī)古籍語言系統(tǒng)構(gòu)建的關(guān)鍵問題與對(duì)策[J].中國(guó)中醫(yī)藥信息雜志,2010,17(4):98-99.

    [14]方純潔,王波,羅杰,等.基于信息抽取的中醫(yī)藥文獻(xiàn)知識(shí)發(fā)現(xiàn)[J].浙江中醫(yī)藥大學(xué)學(xué)報(bào),2012,36(1):88-90,96.

    [15]張稚鯤,李文林.古籍?dāng)?shù)字化建設(shè)的文獻(xiàn)計(jì)量學(xué)研究[J].圖書館理論與實(shí)踐,2011,12(2):45-51.

    猜你喜歡
    本體語義中醫(yī)藥
    Abstracts and Key Words
    中醫(yī)藥在惡性腫瘤防治中的應(yīng)用
    中醫(yī)藥在治療惡性腫瘤骨轉(zhuǎn)移中的應(yīng)用
    對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
    語言與語義
    從《中醫(yī)藥法》看直銷
    中醫(yī)藥立法:不是“管”而是“促”
    “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
    《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
    認(rèn)知范疇模糊與語義模糊
    盱眙县| 基隆市| 南漳县| 海阳市| 金华市| 卫辉市| 财经| 重庆市| 得荣县| 龙游县| 富源县| 通辽市| 临江市| 临汾市| 北辰区| 元氏县| 临夏市| 瑞昌市| 岳西县| 政和县| 广宗县| 通江县| 苏尼特左旗| 平陆县| 阳高县| 加查县| 德昌县| 厦门市| 台中县| 石台县| 博湖县| 高密市| 临潭县| 乐清市| 会东县| 普陀区| 乐昌市| 萨嘎县| 肥西县| 措美县| 和平县|