倪曉華
南京醫(yī)科大學(xué)第二附屬醫(yī)院 信息科,江蘇 南京 210011
利用GATE的XML配置文件實(shí)現(xiàn)病歷短語抽取的機(jī)器學(xué)習(xí)方法
倪曉華
南京醫(yī)科大學(xué)第二附屬醫(yī)院 信息科,江蘇 南京 210011
本文利用文本工程通用框架軟件的XML配置文件,來指定所學(xué)文檔使用的特征參數(shù)、學(xué)習(xí)算法,實(shí)現(xiàn)文本病歷醫(yī)學(xué)短語抽取的機(jī)器學(xué)習(xí)。結(jié)果計(jì)算機(jī)能很方便的在大段病程資料中快速自動獲取醫(yī)生所需的醫(yī)學(xué)短語信息。本學(xué)習(xí)算法具有較好的實(shí)用性,達(dá)到了預(yù)期要求。
電子病歷;機(jī)器學(xué)習(xí);通用框架軟件;支持向量機(jī)
電子病歷(EMR)是指醫(yī)務(wù)人員在醫(yī)療活動過程中使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的文字、符號、圖表、圖形、數(shù)據(jù)、影像等數(shù)字化信息,并能實(shí)現(xiàn)存儲、管理、傳輸和重現(xiàn)的醫(yī)療記錄。但它們不是完全結(jié)構(gòu)化的數(shù)據(jù)(如病程記錄),這種文本信息方便表達(dá)概念以及事件等,是臨床治療過程的主要記錄形式,卻不適宜數(shù)據(jù)的查詢或統(tǒng)計(jì)。近年來隨著醫(yī)院病歷逐步的電子化,使得大規(guī)模病歷的自動分析成為可能?;颊叩募膊『桶Y狀、治療過程和治療效果,這些信息是重要的臨床證據(jù),將這些信息高效精確地收集起來輔助醫(yī)生決策是很有意義的[1-11]。本文利用文本工程通用框架軟件(General Architecture for Test Engineering,GATE)[12]的應(yīng)用實(shí)例組件、批處理學(xué)習(xí)進(jìn)程資源,來實(shí)現(xiàn)EMR記錄中短語抽取的機(jī)器學(xué)習(xí)[13-14]。結(jié)果表明,機(jī)器學(xué)習(xí)信息抽取的結(jié)果符合預(yù)期要求,具有較好的準(zhǔn)確性和實(shí)用性。
機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。而在機(jī)器學(xué)習(xí)領(lǐng)域,支持向量機(jī)是一個(gè)有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類、以及回歸分析。該學(xué)習(xí)模型可以從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù),當(dāng)新的數(shù)據(jù)到來時(shí)就根據(jù)這個(gè)函數(shù)預(yù)測目標(biāo)。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出,也可以說是特征和目標(biāo),訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。監(jiān)督學(xué)習(xí)主要應(yīng)用于分類和預(yù)測,尤其在自然語言處理時(shí)被更加廣泛的應(yīng)用。本文在中使用到的機(jī)器學(xué)習(xí)方法是一個(gè)有監(jiān)督的學(xué)習(xí)模型Gate,為了使用監(jiān)督機(jī)器學(xué)習(xí),可以通過手動注釋NLP文檔[12-15]或從其他資源獲得一些標(biāo)簽數(shù)據(jù),還需要確定哪些語言特征是用于訓(xùn)練(同樣的功能也應(yīng)該在應(yīng)用程序中使用)。在這里要實(shí)現(xiàn)機(jī)器學(xué)習(xí)的功能是所有的機(jī)器學(xué)習(xí)屬性都必須是Gate注釋的特性。
抽取短語機(jī)器學(xué)習(xí)的過程是:① 標(biāo)簽注釋;② 確定語言特征;③ 用JAPE腳本生成想要實(shí)現(xiàn)的功能。
(1)腳本創(chuàng)建規(guī)則。本例是抽取病人入院原因短語的程序,使用腳本如下:
Rule:ru //創(chuàng)建規(guī)則
(
{Token.string == “因”} //讀取字符“因”
({Token})[1,20] //讀取后面1到20個(gè)字符,可自動調(diào)整
{ Token.string == “入院”} //讀取字符“入院”
):ru
-->
:ru.Ru = {rule = “Ru”} //輸出含特征的結(jié)果
短語抽取的結(jié)果,見圖1。
圖1 利用Gate實(shí)現(xiàn)的醫(yī)學(xué)短語抽取
病人入院原因是病人住院前的主要癥狀,對醫(yī)生的診斷起引導(dǎo)作用,是非常重要的病程描述。從大量的病程記錄中快速識別出來,可以高效精確地收集證據(jù)來輔助醫(yī)生決策。其他短語,如現(xiàn)病史、既往史、癥狀都可通過類似的方法實(shí)現(xiàn)。
(2)為短語機(jī)器學(xué)習(xí)創(chuàng)建XML配置文件。該文件應(yīng)包含一個(gè)數(shù)據(jù)集,用來指定所使用的NLP特征,如Token、Lookup、major Type。一個(gè)指定學(xué)習(xí)算法的元素需進(jìn)行必要的可選設(shè)置。
短語機(jī)器學(xué)習(xí)的類由一個(gè)單獨(dú)的注釋類型形式提供,如“Ru”包含一個(gè)特征“類”。
<ATTRIBUTE> \ 定義被訓(xùn)練的注釋數(shù)據(jù)
<NAME>Class</NAME> \ 特征的名字
<SEMTYPE>NOMINAL</SEMTYPE> \ 特征值的類型,目前只支持NOMINAL
<TYPE>Ru</TYPE> \ 用于抽取特征的注釋類型
<FEATURE>rule</FEATURE> \ 具體的抽取特征值
<POSITION>0</POSITION> \ 相對于當(dāng)前的實(shí)例注釋,用來抽取特征的實(shí)例注釋位置
<CLASS/> \ 類的標(biāo)志
</ATTRIBUTE> \ 注釋數(shù)據(jù)的標(biāo)志
這就是機(jī)器學(xué)習(xí)的輸出程序,其他注釋包括運(yùn)行參數(shù)“Token”和“Lookup”。所有這些注釋在相同的注釋集合中,它們將作為運(yùn)行時(shí)的參數(shù)傳遞。
配置文件中有一部分是數(shù)據(jù)集子元素,定義為所使用的語言特征。首先把“字符”注釋作為第一個(gè)實(shí)例,其特征是字符串,如<RANGE from=“-5” to=“5”/>從“- 5”到“5”的范圍意味著當(dāng)前的字符,以及它5個(gè)前面的字符和它的5個(gè)隨后的字符將被用作當(dāng)前字符實(shí)例的功能,使得周邊詞在信息抽取中的作用明顯,當(dāng)為5時(shí)可使系統(tǒng)的性能表現(xiàn)最佳。
(3)預(yù)處理新文檔。用與培訓(xùn)文檔相同的方式預(yù)處理新文檔,以確保相同的特征(類標(biāo)簽不需存在)。將學(xué)習(xí)模型設(shè)置為應(yīng)用程序并在此語料庫上運(yùn)行PR,應(yīng)用程序結(jié)果被添加到指定的注釋集中。參數(shù)設(shè)置操作界面,見圖2;字段抽取結(jié)果,見圖3。
圖2 應(yīng)用程序參數(shù)配置圖
圖3 機(jī)器學(xué)習(xí)字段抽取結(jié)果
比較圖1和圖3,可以發(fā)現(xiàn)圖3的CC中無規(guī)則Ru。這意味著對于新文檔,使用的是機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)入院原因短語的抽取,而不是JAPE腳本生成的規(guī)則。機(jī)器學(xué)習(xí)的結(jié)果體現(xiàn)在輸出函數(shù)指定的注釋集中,結(jié)果是可接受的。最主要的是對于大量的電子病歷病程來說,能讓計(jì)算機(jī)學(xué)習(xí)需要抽取的內(nèi)容,大大方便了醫(yī)生,同時(shí)為病人病程的查詢、輔助決策提供支持。
本文使用3種評價(jià)指標(biāo)[15]:準(zhǔn)確率(P)、召回率(R)、F值(F-Score)來評估短語抽取的效果,這些指標(biāo)也是目前抽取任務(wù)所普遍采用的。P與R是檢索和分類系統(tǒng)中最常用的兩個(gè)度量值。P也稱查準(zhǔn)率,指系統(tǒng)判斷正確的正例個(gè)數(shù)與判斷為正例的總實(shí)例數(shù)的比率;R也稱查全率,是指系統(tǒng)判斷正確的正例個(gè)數(shù)與語料中包含的所有正例數(shù)的比率。F值,對一個(gè)分類系統(tǒng)來說,準(zhǔn)確率和召回率往往不能兩全,是相互制約的,通常用準(zhǔn)確率和召回率的調(diào)和平均數(shù)F值來衡量系統(tǒng)的整體性能,是信息檢索領(lǐng)域一個(gè)常用的評價(jià)指標(biāo)。本文機(jī)器學(xué)習(xí)抽取入院原因的P=94.59%,R=93.33%,F(xiàn)=93.96%。
[1] Fan J,Kalyanpur A,Gondek DC,et al.Automatic knowledge extraction from documents[J].J Res Dev,2012,56(4):501-510.
[2] Uzuner O,Solti I,Cadag E.Extracting medication info-rmation from clinical Text[J].J Am Med Inform Assoc,2010,17(5):514-518.
[3] 原歡.基于GATE的貨物動態(tài)郵件信息抽取方法與應(yīng)用研究[D].南京:南京航天航空大學(xué),2013.
[4] Ke CM,Huang FJ,Lee SS,et al.Use of data mining surveillance system in real time detection and analysis for healthcareassociated infections[J].BMC Proc,2016,(5):30-34.
[5] Tomaszewski JE,Hipp J,Tangrea M,et al. Madabhushi, machine vision and machine learning in digital pathology[J].Pathobiol Hum Dis,2016,(9):3711-3722.
[6] Taroni F,Biedermann A.Bayesian networks[J].Encycl Forensic Sci,2013,(8):351-356.
[7] Alonso AF,Rojo AJL,Rosado MA.Feature selection using support vector machines and bootstrap methods for ventricular fi brillation detection[J].Expert Syst Appl,2016,39(2):1956-1967.
[8] 徐永東,權(quán)光日,王亞東.基于HL7的電子病歷關(guān)鍵信息抽取技術(shù)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2011,(11):89-94.
[9] 葉楓,陳鶯鶯,周根貴,等.電子病歷中命名實(shí)體的智能識別[J].中國生物醫(yī)學(xué)工程學(xué)報(bào),2011,(2):256-262..
[10] Bouvry C,Tvardik N,Kergourlay I,et al.The SYNODOS project: System for the normalization and organization of textual medical data for observation in healthcare[J]. IRBM,2016,37(4):109-115.
[11] Hong JL,Siew EG,Egerton S.Information extraction for search engines using fast heuristic techniques[J].Data Knowl Eng,2010,69(2):169-196.
[12] Cunningham H,Maynard D,Bontcheva K.Developing language processing components with GATE Version 8[EB/OL].http:// gateacuk/sale/tao/tao.pdf.
[13] Bisin A,Guaitoli D.Information Extraction and norms of mutual protection[J].J Econ Behav Organ,2015,84(1):154-162.
[14] Wiebe J,Riloff E.Finding mutual bene fi t between subjectivity analysis and information extraction[J].Affect Comput,2015,2(4): 175-191.
[15] Sheikh M,Conlon S.A rule-based system to extract financial information[J].J Comput Inf Syst,2015,52(4):10-19.
[16] 馬續(xù)補(bǔ),郭菊娥.基于GATE的任務(wù)信息抽取研究[J].情報(bào)雜志,2010,29(1):155-158.
本文編輯 韓淑英
Machine Learning Method to Realize Medical Record Phrase Extraction via Using the XML Con fi guration File of the GATE
N I X i a o-h u a
Department of Information, the Second Affiliated Hospital of Nanjing Medical University, Nanjing Jiangsu 210011, China
Based on XML con fi guration fi les of general architecture for text engineering, we speci fi ed characteristics and learning algorithm of the documents, and realized machine learning of text records phrase extraction. The result was that computer could automatically obtain the phrases that doctor required from the long course information quickly. This learning algorithm has good practicability and meets the expected demand.
electronic medical record; machine learning; general architecture for text engineering; support vector machine
TP391.1
C
10.3969/j.issn.1674-1633.2017.07.034
1674-1633(2017)07-0124-02
2016-10-25
2017-03-15
作者郵箱:nxh.2046@163.com