楊曉歡,單婭輝,解 丹**,李曉東
(1.湖北中醫(yī)藥大學(xué)信息工程學(xué)院 武漢 430065;2.湖北省中醫(yī)院 武漢 430061)
面向文摘的中藥方劑與疾病關(guān)系抽取*
楊曉歡1,單婭輝1,解 丹1**,李曉東2
(1.湖北中醫(yī)藥大學(xué)信息工程學(xué)院 武漢 430065;2.湖北省中醫(yī)院 武漢 430061)
目的:利用機(jī)器學(xué)習(xí)的方法,從文獻(xiàn)摘要數(shù)據(jù)入手,研究中藥方劑與疾病的相關(guān)性。方法:在中國(guó)知網(wǎng)的“文獻(xiàn)分類目錄”中選取“醫(yī)藥衛(wèi)生科技”—“中醫(yī)學(xué)”類別,使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取摘要數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗、構(gòu)建詞典、分詞等預(yù)處理步驟,使用自然語(yǔ)言處理技術(shù)對(duì)處理后的文本數(shù)據(jù)進(jìn)行特征提取,并構(gòu)建支持向量機(jī)(Support Vector Machine,SVM)分類模型,對(duì)中藥方劑與疾病進(jìn)行關(guān)系抽取。結(jié)果:共爬取1073581篇摘要,根據(jù)中藥方劑與疾病詞典篩選出同時(shí)包含中藥方劑與疾病的語(yǔ)句共204780句,利用句法解析抽取的特征構(gòu)建SVM分類模型,準(zhǔn)確率達(dá)87%,將該SVM模型應(yīng)用于篩選后的句子,最終得到中藥方劑與疾病之間的關(guān)系三元組。結(jié)論:利用機(jī)器學(xué)習(xí)方法對(duì)中國(guó)知網(wǎng)中醫(yī)學(xué)摘要文本數(shù)據(jù)進(jìn)行關(guān)系抽取,得到的中藥方劑與疾病的關(guān)系三元組,將對(duì)中藥方劑治療疾病研究起積極推動(dòng)作用。
中藥方劑與疾病關(guān)系抽取 抽取數(shù)據(jù) 中醫(yī)藥數(shù)據(jù)抽取 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
中醫(yī)領(lǐng)域包含豐富的臨床和文獻(xiàn)數(shù)據(jù)資源,這些數(shù)據(jù)資源具有重要的理論研究和臨床應(yīng)用價(jià)值,對(duì)其分析利用是重要的研究問(wèn)題,但目前中醫(yī)臨床數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)等仍以自然語(yǔ)言為主要記錄方式,其數(shù)字信息載體主要是文本數(shù)據(jù)。如何從非結(jié)構(gòu)化文本中提取出有用的醫(yī)學(xué)信息或者知識(shí),已逐漸成為人們關(guān)注的研究課題,如抽取基因與疾病之間關(guān)系的DTMiner框架,從網(wǎng)絡(luò)論壇、社交媒體數(shù)據(jù)中發(fā)掘藥物與副作用之間的關(guān)聯(lián)等[1-3]。中醫(yī)藥是我國(guó)的國(guó)粹,有著幾千年的發(fā)展歷史,近代時(shí)期西醫(yī)后來(lái)居上,如何讓傳統(tǒng)中醫(yī)在數(shù)據(jù)時(shí)代重獲新生是中醫(yī)藥現(xiàn)代化的重要內(nèi)容[4]。利用計(jì)算機(jī)程序自動(dòng)從文本數(shù)據(jù)中提取有用信息,能夠?qū)⑷藗儚姆敝氐目蒲泄ぷ髦薪夥懦鰜?lái),提高科研工作效率。
本文選取中醫(yī)藥文獻(xiàn)摘要數(shù)據(jù)作為中醫(yī)藥知識(shí)的文本來(lái)源,嘗試對(duì)其中蘊(yùn)含的中醫(yī)方劑與疾病之間的關(guān)系進(jìn)行提取。本文在第2節(jié)中介紹了中醫(yī)藥文本挖掘的相關(guān)研究;在第3節(jié)中詳細(xì)介紹了數(shù)據(jù)處理與分析方法,包括文本數(shù)據(jù)獲取、數(shù)據(jù)清洗,構(gòu)建詞典以及分詞;在第4節(jié)中分別使用句法解析、依存解析對(duì)文摘數(shù)據(jù)進(jìn)行特征提取,然后使用SVM算法模型對(duì)數(shù)據(jù)進(jìn)行分類;在第5節(jié)中進(jìn)行了實(shí)驗(yàn),得到中藥方劑與疾病的關(guān)系三元組。結(jié)果表明本文提出的中藥方劑與疾病關(guān)系抽取的方法方便可行,分類準(zhǔn)確度高,為后續(xù)數(shù)據(jù)挖掘工作奠定了重要基礎(chǔ)。
關(guān)系抽取是從一句包含兩個(gè)或多個(gè)實(shí)體的文本中抽取出實(shí)體間的關(guān)系[5]。例如從句子“益氣導(dǎo)溺湯治療產(chǎn)后尿閉35例”中抽取出實(shí)體“益氣導(dǎo)溺湯”與“尿閉”的關(guān)系。關(guān)系抽取最終將得到二元組或者三元組表示的關(guān)系形式,幫助用戶查詢或者作為其他系統(tǒng)的輸入,如問(wèn)答系統(tǒng)等[6,7]。關(guān)系抽取方法主要有以下兩種:基于規(guī)則匹配的方法和基于機(jī)器學(xué)習(xí)的方法?;谝?guī)則匹配的關(guān)系抽取方法是定義了一組表達(dá)自然語(yǔ)言文本關(guān)系的模式規(guī)則,然后從文獻(xiàn)中抽取與該模式相互匹配的關(guān)系。Yu-Ching Fang在PubMed語(yǔ)料的句子級(jí)別上,采用基于模式匹配的方法進(jìn)行關(guān)系抽取,結(jié)合PharmGKB數(shù)據(jù)庫(kù),對(duì)中藥,基因,疾病之間的關(guān)系進(jìn)行探索研究[8]。規(guī)則匹配的方法,對(duì)語(yǔ)言學(xué)的要求較高,因而基于機(jī)器學(xué)習(xí)的方法較為常用[9]?;跈C(jī)器學(xué)習(xí)的關(guān)系抽取方法一般是預(yù)先定義關(guān)系類型體系,然后使用分類、無(wú)向圖模型等機(jī)器學(xué)習(xí)方法來(lái)進(jìn)行關(guān)系抽取[10]。周雪忠在現(xiàn)代生物醫(yī)學(xué)數(shù)據(jù)與中醫(yī)藥文獻(xiàn)數(shù)據(jù)中利用Bubble-bootstrapping算法進(jìn)行中醫(yī)術(shù)語(yǔ)實(shí)體識(shí)別,然后在基于共現(xiàn)的方法上利用點(diǎn)互信息,進(jìn)行關(guān)系權(quán)重計(jì)算,得到癥狀、疾病與基因之間的關(guān)系[11]。Huaiyu Wan在中國(guó)知網(wǎng)的文獻(xiàn)摘要語(yǔ)料中,利用因子圖模型,對(duì)中藥、方劑、癥狀、疾病這四者之間的關(guān)系進(jìn)行關(guān)系抽取,判斷它們之間是否存在關(guān)聯(lián)[12]。
中醫(yī)藥文本挖掘以及關(guān)系抽取方面的研究成果較多。本文采用自然語(yǔ)言處理的方式,將文摘?jiǎng)澐譃榫渥樱缓髮?duì)句子進(jìn)行分詞、解析,抽取特征,建立模型。自然語(yǔ)言處理任務(wù)耗時(shí)較長(zhǎng),本文在單臺(tái)機(jī)器上搭建了Spark偽分布式環(huán)境,驗(yàn)證了在Spark平臺(tái)環(huán)境中執(zhí)行自然語(yǔ)言處理任務(wù)的可行性。
中國(guó)知網(wǎng)作為學(xué)術(shù)文獻(xiàn)、學(xué)位論文、報(bào)紙、會(huì)議等各類資源統(tǒng)一檢索的數(shù)據(jù)庫(kù),包含的中醫(yī)藥文章與摘要資源豐富,本文將中國(guó)知網(wǎng)上的中醫(yī)藥類型文獻(xiàn)摘要數(shù)據(jù)作為語(yǔ)料庫(kù)。
使用Web爬蟲(chóng),同時(shí)借助于支持JavaScript腳本的WebKit瀏覽器引擎PhantomJS,可以比較方便地全自動(dòng)獲取到中國(guó)知網(wǎng)網(wǎng)絡(luò)期刊數(shù)據(jù)庫(kù)中的文章標(biāo)題以及摘要數(shù)據(jù)[13]。在中國(guó)知網(wǎng)的“文獻(xiàn)分類目錄”中選取“醫(yī)藥衛(wèi)生科技”—“中醫(yī)學(xué)”類別,本文爬取從1950年10月到2016年12月,共計(jì)66年所有該分類的摘要數(shù)據(jù),一共爬取到1073581篇摘要。將所有標(biāo)題、摘要數(shù)據(jù)合并為一個(gè)整體文件,方便后續(xù)的處理分析。
網(wǎng)頁(yè)常用HTML標(biāo)簽對(duì)文本進(jìn)行修飾,在提取正文信息時(shí),需要?jiǎng)h除這些HTML標(biāo)簽。本文使用正則表達(dá)式、Beautiful Soup庫(kù),對(duì)網(wǎng)頁(yè)中的正文信息進(jìn)行提取。中國(guó)知網(wǎng)上的摘要數(shù)據(jù),有少量摘要數(shù)據(jù)的最后一句話不完整,特別是年代較早的摘要,如六七十年代的摘要。對(duì)于這些摘要,通過(guò)下載全文可以觀察到,這些文章的排版不一樣,而且是掃描版的文件,由圖片構(gòu)成,使用OCR進(jìn)行圖像識(shí)別得到的結(jié)果較差,不便于自動(dòng)化處理,只能使用手工的方式才能對(duì)不完整的摘要進(jìn)行補(bǔ)全,從效率上考慮,最終舍棄了摘要中最后不完整的語(yǔ)句。中國(guó)知網(wǎng)上的摘要數(shù)據(jù),有中文簡(jiǎn)體字,也有中文繁體字,使用Open Chinese Convert(Open CC)開(kāi)源中文簡(jiǎn)繁轉(zhuǎn)換軟件對(duì)文本全部轉(zhuǎn)為中文簡(jiǎn)體文字格式。然后對(duì)字符集進(jìn)行格式轉(zhuǎn)換,全部轉(zhuǎn)為UTF-8格式,避免后續(xù)的處理步驟因?yàn)樽址壒识鲥e(cuò)。在摘要中經(jīng)常出現(xiàn)以“目的:”、“方法:”、“結(jié)果:”、“結(jié)論:”、“<正>”等標(biāo)志字符開(kāi)頭的句子,這些詞語(yǔ)對(duì)后續(xù)關(guān)系抽取無(wú)實(shí)際意義,清洗時(shí)刪除了這類詞語(yǔ)。
中醫(yī)藥博大精深,名詞術(shù)語(yǔ)包含了癥狀、疾病、證、中藥方劑等。為了提高分詞的準(zhǔn)確性,需要建立中醫(yī)藥專業(yè)詞典。中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T15657-1995《中醫(yī)病證分類與代碼》包含了“證”、“疾病”類專業(yè)名詞。中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T 31773-2015《中藥方劑編碼規(guī)則及編碼》包含了“方劑”類專業(yè)名詞。另外,分別從國(guó)際疾病分類(ICD-10)、《秦伯未醫(yī)學(xué)名著全書(shū)》中摘錄疾病與方劑專業(yè)名詞。詞典中詞的數(shù)量越多,對(duì)分詞效果越好。為了進(jìn)一步擴(kuò)充中醫(yī)藥專業(yè)詞典,從中國(guó)知網(wǎng)的中草藥知識(shí)庫(kù)、疾病診療知識(shí)庫(kù)、中藥方劑知識(shí)庫(kù),尋醫(yī)問(wèn)藥網(wǎng)等獲取信息,利用Web爬蟲(chóng)技術(shù)以及Heritrix開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目獲取所需名詞術(shù)語(yǔ)數(shù)據(jù),然后進(jìn)行數(shù)據(jù)清洗,獲取疾病、方劑、癥狀專業(yè)名詞。對(duì)癥狀、疾病、證、中藥方劑專業(yè)名詞,在去重處理后,構(gòu)成中醫(yī)藥專業(yè)詞典。在分詞階段,為了提高分詞精確度,還使用搜狗詞庫(kù)中的癥狀、名老中醫(yī)姓名、醫(yī)學(xué)穴位詞典,將這些scel文件格式詞典進(jìn)行解析轉(zhuǎn)換為普通文本文件txt。
中文分詞,是將中文文本劃分為一個(gè)個(gè)的詞語(yǔ)[14]。英文語(yǔ)言的詞與詞之間以空格作為標(biāo)記,而中文的詞與詞之間沒(méi)有分隔符,每句話中僅僅只有逗號(hào)、分號(hào)等作為分隔,中文中的這些分隔符不足以滿足詞語(yǔ)區(qū)分的要求。對(duì)于自然人而言,可以通過(guò)自己的理解知道語(yǔ)句中的單字、詞語(yǔ)、短語(yǔ)、縮寫(xiě)等,而計(jì)算機(jī)不具備這樣的能力,因此需要將語(yǔ)句進(jìn)行分詞處理。
改寫(xiě)Stanford Segmenter部分代碼,獲取自帶詞典的名詞數(shù)量是423200個(gè),加入自定義的中醫(yī)藥專業(yè)詞典的名詞共41110個(gè),重新訓(xùn)練Chinese Segmenter,得到dict-chris6.ser.gz,對(duì)中國(guó)知網(wǎng)的摘要數(shù)據(jù)進(jìn)行分詞[15]。由于有的方劑長(zhǎng)度較長(zhǎng),并且由幾個(gè)中藥名詞組合加上“湯”、“丸”、“散”等組成,如“甘草知母鱉甲丸”由“甘草”、“知母”、“鱉甲”中藥名加上“丸”構(gòu)成,“茯苓桂枝甘草大棗湯”由“茯苓”、“桂枝”、“甘草”、“大棗”加上“湯”構(gòu)成。使用Stanford Segmenter分詞之后,這些由較短的中藥名詞組合而成的方劑名詞,會(huì)被分為幾個(gè)比較簡(jiǎn)短的中藥名詞。使用最大正向匹配的思想,對(duì)被誤分的詞進(jìn)行重新合并,如圖1所示,初始字符串s1表示經(jīng)過(guò)Stanford Segmenter分詞之后的語(yǔ)句。從方劑名詞長(zhǎng)度與中藥名詞長(zhǎng)度考慮,對(duì)MaxLength設(shè)值為6,最長(zhǎng)6個(gè)詞一起合并,判斷是否位于詞典中,如果是則將它們重新合并,否則長(zhǎng)度由6遞減直至為1。
本文分別采用句法解析與依存解析兩種方法進(jìn)行特征提取,然后根據(jù)各自提取的特征構(gòu)建SVM模型、決策樹(shù)模型,根據(jù)對(duì)測(cè)試數(shù)據(jù)集的預(yù)測(cè)正確率,選取較高正確率的模型對(duì)未知數(shù)據(jù)進(jìn)行劃分,得到最終關(guān)系。
中文文本詞匯數(shù)量巨大,在抓取的全部摘要數(shù)據(jù)中,中文詞匯的總數(shù)有近萬(wàn)條,如果特征空間直接由所有這些詞匯組成,這樣的特征空間偏大,不利于后續(xù)處理的效率與精度。為了提高分類的效率與精度,需要減小特征空間的維度。特征降維方法可以分為特征抽?。‵eature Extraction)和特征提取(Feature Selection)。特征抽取將會(huì)產(chǎn)生新的特征,如主成分分析(Principal Component Analysis)等降維方法。特征提取是指依據(jù)某個(gè)標(biāo)準(zhǔn)從眾多原始特征中選擇少部分最能反映類別的特征集合,不會(huì)產(chǎn)生新的特征。這里分別使用句法解析與依賴解析的方法,進(jìn)行特征提取,降低特征空間的維度。句法解析與依存解析,均需要通過(guò)標(biāo)注的樹(shù)庫(kù)語(yǔ)料庫(kù)建模產(chǎn)生,本文使用Stanford Parser開(kāi)源工具進(jìn)行句法解析與依存解析[16]。對(duì)語(yǔ)句進(jìn)行句法解析或者依存解析之前,均需要對(duì)語(yǔ)句進(jìn)行分詞處理。
圖1 基于Stanford Segmenter技術(shù)的分詞流程圖
4.1.1 句法解析
句法解析是指對(duì)句子中詞語(yǔ)的詞性進(jìn)行解析[17]。例如,語(yǔ)句“筆者采用金水六君煎加味治療慢性支氣管炎31例,收到滿意療效,現(xiàn)報(bào)道如下。”進(jìn)行句法解析的結(jié)果,如圖2所示。
使用句法解析提取特征的步驟是:(1)提取出中藥方劑與疾病之間的詞語(yǔ),以及與詞語(yǔ)對(duì)應(yīng)的詞性;(2)中藥方劑或者疾病后面是否有逗號(hào),如果有,則提取出逗號(hào)后面緊接的短語(yǔ)中的詞語(yǔ),以及詞語(yǔ)對(duì)應(yīng)的詞性;(3)去除停用詞,如“的”,根據(jù)詞語(yǔ)的詞性,刪除基數(shù)詞、計(jì)量單位詞等;(4)按照詞語(yǔ)出現(xiàn)頻率排序,刪除出現(xiàn)頻率較低的詞語(yǔ),并且對(duì)其他部分詞語(yǔ)進(jìn)行手工篩選;(5)羅列所有詞語(yǔ),若每句的特征中,出現(xiàn)對(duì)應(yīng)的詞語(yǔ),則標(biāo)注為1,否則標(biāo)注為0。
4.1.2 依存解析
依存解析就是分析句子中各個(gè)詞語(yǔ)之間的依存關(guān)系[18]。例如,語(yǔ)句“筆者采用金水六君煎加味治療慢性支氣管炎31例,收到滿意療效,現(xiàn)報(bào)道如下?!边M(jìn)行依存解析的結(jié)果,使用Graphviz開(kāi)源軟件繪制后的圖形,如圖3所示。
使用依存解析提取特征的步驟是:(1)找到包含中藥方劑與疾病所在的子樹(shù),提取子樹(shù)上的詞語(yǔ);(2)中藥方劑或者疾病后面是否有逗號(hào),如果有,則提取出逗號(hào)后面的第一個(gè)子樹(shù)上的詞語(yǔ);(3)按照詞語(yǔ)出現(xiàn)頻率排序,刪除出現(xiàn)頻率較低的詞語(yǔ),并且對(duì)其他部分詞語(yǔ)進(jìn)行手工篩選;(4)羅列所有詞語(yǔ),若每句的特征中,出現(xiàn)對(duì)應(yīng)的詞語(yǔ),則標(biāo)注為1,否則標(biāo)注為0。
圖2 句法解析結(jié)果
圖3 依存解析結(jié)果
SVM(Support Vector Machine,支持向量機(jī))是一個(gè)二分類器,是一種監(jiān)督學(xué)習(xí)模型。監(jiān)督學(xué)習(xí)是從標(biāo)記樣本中訓(xùn)練模型,然后再利用訓(xùn)練得到的模型對(duì)未標(biāo)記樣本進(jìn)行映射,得到相應(yīng)的輸出。對(duì)摘要數(shù)據(jù)進(jìn)行觀察,分為三類,分別是:(1)因服用中藥方劑導(dǎo)致副作用或者不良反應(yīng);(2)中藥方劑可以治療某些疾??;(3)中藥方劑治療某些疾病,并且收到了良好的治療效果。由于SVM是二分類器,本實(shí)驗(yàn)數(shù)據(jù)有三類,這里使用一對(duì)一法,在任意兩類樣本之間設(shè)計(jì)一個(gè)SVM模型,所以最終一共有三個(gè)SVM模型。當(dāng)對(duì)一個(gè)未知樣本進(jìn)行分類時(shí)候,得票最高的類別就是此樣本的類別。這里使用開(kāi)源的LIBSVM軟件包訓(xùn)練SVM模型,只需將數(shù)據(jù)轉(zhuǎn)換為L(zhǎng)IBSVM所要求的格式[19]。
利用中藥方劑與疾病詞典,篩選出同時(shí)包含方劑與疾病的語(yǔ)句,最終一共得到204780句。從這些語(yǔ)句中隨機(jī)挑選一千多句,依據(jù)前面定義的類型,進(jìn)行手工標(biāo)注所屬類別,分別用-1,0,1表示。然后按照特征提取中的步驟,分別使用句法解析與依存解析的特征提取方法,從標(biāo)注數(shù)據(jù)中隨機(jī)抽選80%數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),20%數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集,使用SVM模型進(jìn)行訓(xùn)練,最終的結(jié)果如表1所示。
表1 SVM實(shí)驗(yàn)結(jié)果
采用類似的方法,對(duì)上述數(shù)據(jù),使用決策樹(shù)建立分類模型,與SVM模型作對(duì)比。這里采用WeKa數(shù)據(jù)挖掘軟件進(jìn)行實(shí)驗(yàn),將數(shù)據(jù)轉(zhuǎn)為WeKa要求的arff數(shù)據(jù)格式,并且對(duì)最終結(jié)果計(jì)算正確率,如表2所示。
從表1與表2中結(jié)果得知,使用句法解析與依存解析的方式進(jìn)行特征提取,對(duì)最終訓(xùn)練的模型正確率有影響,且用句法解析得到的特征進(jìn)行訓(xùn)練模型,正確率均較高。這里選用句法解析提取的特征與SVM分類模型對(duì)其他未知數(shù)據(jù)進(jìn)行預(yù)測(cè),最終得到的類別為-1、0、1 的三元組,去重后數(shù)量分別是 164,34265,25417。最終從中藥方劑與疾病的關(guān)系中,能夠發(fā)現(xiàn)如三黃片致血尿的過(guò)敏反應(yīng)、復(fù)方丹參滴丸治療冠心病、排石湯治療泌尿系結(jié)石且效果良好。
本實(shí)驗(yàn)過(guò)程中,分詞與特征提取步驟,均用到了Stanford NLP的相關(guān)工具,由于需要處理分析的文本內(nèi)容較多,計(jì)算處理耗費(fèi)的時(shí)間較長(zhǎng)。搭建基于內(nèi)存計(jì)算的Spark集群,能夠加快處理速度,節(jié)省時(shí)間[20]。在本地單臺(tái)機(jī)器上搭建Spark偽分布式環(huán)境,從Hadoop的HDFS讀取文件,實(shí)現(xiàn)了Spark平臺(tái)環(huán)境中運(yùn)行Stanford CoreNLP。
表2 決策樹(shù)實(shí)驗(yàn)結(jié)果
本文對(duì)中藥方劑與疾病之間的關(guān)系抽取做了探索研究,通過(guò)眾多國(guó)家標(biāo)準(zhǔn)以及權(quán)威書(shū)籍,構(gòu)建了疾病、中藥方劑、證、癥狀詞典,能夠應(yīng)用于其他中醫(yī)藥文本數(shù)據(jù)分析中。使用不同的特征提取方法,對(duì)手工標(biāo)注的數(shù)據(jù)訓(xùn)練SVM模型,訓(xùn)練的模型準(zhǔn)確率均較高,最終可以將此模型運(yùn)行于其它未標(biāo)注數(shù)據(jù)上。本文實(shí)驗(yàn)使用的數(shù)據(jù)集保存在https://github.com/XiaohuanIT/TCM。通過(guò)實(shí)驗(yàn),我們驗(yàn)證了Stanford CoreNLP可以與Spark數(shù)據(jù)平臺(tái)結(jié)合使用。在Spark集群環(huán)境中,可以加快文本處理的速度。后續(xù)希望將關(guān)系抽取得到的關(guān)系三元組保存在關(guān)系型數(shù)據(jù)庫(kù)或者非關(guān)系型數(shù)據(jù)庫(kù)中,然后利用后臺(tái)編程語(yǔ)言Java,結(jié)合前端可視化技術(shù)D3.js,做成可查詢的Web系統(tǒng),方便中醫(yī)藥科研工作人員使用。同時(shí),依據(jù)這些關(guān)系三元組,以及方劑的具體藥物組成,通過(guò)其他數(shù)據(jù)挖掘或者排序算法,可以對(duì)藥物的主要治療作用進(jìn)行探索性研究。
1 Xu D,Zhang M,Xie Y,et al.DTMiner:Identification of potential disease targets through biomedical literature mining.Bioinformatics,2016,32(23):3619-3626.
2 Sampathkumar H,Chen X,Luo B.Mining adverse drug reactions from online healthcare forums using hidden Markov model.Bmc Med Inform Decis Mak,2014,14(1):91.
3 Nikfarjam A,Sarker A,O'Connor K,et al.Pharmacovigilance from social media:mining adverse drug reaction mentions using sequence labeling with word embedding cluster features.J Am Med Inform Assoc,2015,22(3):671-681.
4 姚美村,袁月梅,艾路,等.數(shù)據(jù)挖掘及其在中醫(yī)藥現(xiàn)代化研究中的應(yīng)用.北京中醫(yī)藥大學(xué)學(xué)報(bào),2002,25(5):20-23.
5 段利國(guó),徐慶,李愛(ài)萍,等.實(shí)體詞語(yǔ)義信息對(duì)中文實(shí)體關(guān)系抽取的作用研究.計(jì)算機(jī)應(yīng)用研究,2017,34(1):141-146.
6 Lin Y,Shen S,Liu Z,et al.Neural relation extraction with selective attention over instances,54th Annual Meeting of the Association for Computational Linguistics,ACL,2016.Stroudsburg:Association for Computational Linguistics,2016:2124-2133.
7 Zhou D,Zhong D,He Y.Biomedical Relation Extraction:From Binary to Complex.Comput Math Methods Med,2014,2014(1):298473.
8 Fang Y C,Huang H C,Chen H H,et al.TCMGeneDIT:a database for associated traditional Chinese medicine,gene and disease information using text mining.BMC complement Altern Med,2008,8(1):58.
9 徐健,張智雄,吳振新.實(shí)體關(guān)系抽取的技術(shù)方法綜述.現(xiàn)代圖書(shū)情報(bào)技術(shù),2008,(8):18-23.
10秦兵,劉安安,劉挺.無(wú)指導(dǎo)的中文開(kāi)放式實(shí)體關(guān)系抽取.計(jì)算機(jī)研究與發(fā)展,2015,52(5):1029-1035.
11 Zhou X,Liu B,Wu Z,et al.Integrative mining of traditional Chinese medicine literature and MEDLINE for functional gene networks.Artif Intell Med,2007,41(2):87-104.
12 Wan H,Moens M F,Luyten W,et al.Extracting relations from traditional Chinese medicine literature via heterogeneous entity networks.J Am Med Inform Assn,2016,23(2):356-365.
13 Wong C I,Wong K Y,Ng K,et al.Design of a crawler for online social networks analysis.Wseas Trans Commun,2014,3:264-274.
14宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理(第2版).北京:清華大學(xué)出版社,2013.
15 Chang P C,Galley M,Manning C D.Optimizing Chinese word segmentation for machine translation performance,Proceedings of the third workshop on statistical machine translation.Acl,2008:224-232.
16 Chen,Danqi,Christopher D.Manning.A Fast and Accurate Dependency Parser using Neural Networks,2014 Conference on Empirical Methods in Natural Language Processing.Acl,2014:740-750.
17 Pinter Y,Reichart R,Szpektor I.Syntactic parsing of web queries with question intent,15th Conference of the North American Chapter of the Association for Computational Linguistics:Human Language chnologies.A C L,2016:670-680.
18 McDonald R T,Pereira F.Online Learning of Approximate Dependency Parsing Algorithms,11th Conference of the European Chapter of the Association for Computational Linguistics.ACL,2006:81-88.
19 Chang C C.and Lin C J.LIBSVM:a library for support vector machines.Acm Tist,2011,2(3),27:1-27.
20王亞玲,劉越,洪建光,等.基于Spark/Shark的電力用采大數(shù)據(jù)OLAP分析系統(tǒng).中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2016,46(1):66-75.
Relation Extraction of Traditional Chinese Medicine Prescription and Disease Based on LiteratureAbstracts Data
Yang Xiaohuan1,Shan Yahui1,Xie Dan1,Li Xiaodong2
(1.College of Information Engineering,Hubei University of Chinese Medicine,Wuhan 430065,China;2.Hubei Province Chinese Medicine Hospital,Wuhan 430061,China)
This paper studied the correlation between traditional Chinese medicine(TCM)prescription and disease based on machine learning.This paper selected TCM literature abstract data in the TCM category of the China National Knowledge Infrastructure(CNKI)database by crawler technology.After data cleaning,lexicon building,word segmentation and other related basic pre-treatment work,it uses natural language processing technique to extract the feature of the web text data,constructs the Support Vector Machine(SVM)classification model,and extracts the relation between TCM prescription and disease.The results showed that among 1073581 abstracts,204780 sentences,which included both TCM prescription and the disease according to dictionaries,were filtered.The SVM classification model whose feature is constructed by constituency parser is in a better accuracy,which achieved 87%.Applying the SVM model in filtered sentences,this study obtained the relation triples between TCM prescription and the disease.It was concluded that by using the method of machine learning to extract relation on abstract data from the CNKI database,the extracted relation triples of TCM prescription and disease will take a positive effect on the research of disease treatment by TCM prescription.
Relation extraction of traditional Chinese medicine prescription and disease Relation extraction of traditional Chinese medicine prescription and disease,data extraction,traditional Chinese medicine data extraction,web crawler technology
10.11842/wst.2017.07.012
R-33
A
2017-03-12
修回日期:2017-07-11
* 老年病中藥新產(chǎn)品湖北省協(xié)同創(chuàng)新中心項(xiàng)目(No.201506):湖北省中醫(yī)老年病數(shù)據(jù)資源管理平臺(tái)構(gòu)建研究,負(fù)責(zé)人:解丹;國(guó)家中醫(yī)藥管理局中醫(yī)臨床研究基地業(yè)余建設(shè)科研專項(xiàng)課題(No.JDZX2012051):中醫(yī)治療慢性乙型肝炎真實(shí)世界效果比較研究,負(fù)責(zé)人:李曉東。
** 通訊作者:解丹,副教授,碩士生導(dǎo)師,主要研究方向:醫(yī)學(xué)數(shù)據(jù)挖掘。
(責(zé)任編輯:韓馥蔓,責(zé)任譯審:王 晶)
世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化2017年7期