趙琬清 胡佳慧 婁 培 陳凌云 方 安
(中國醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所 北京 100020)
相比開放領(lǐng)域數(shù)據(jù),電子病歷數(shù)據(jù)具有較強(qiáng)隱私性。盡管國內(nèi)外許多學(xué)者對電子病歷信息抽取進(jìn)行了深入研究,但相關(guān)研究數(shù)據(jù)難以公開。通過開展電子病歷開放評測使更多研究人員參與到臨床信息抽取任務(wù)中,能夠促進(jìn)更大范圍的臨床自然語言處理研究?;谟⑽牡呐R床信息抽取評測以美國國家臨床自然語言處理挑戰(zhàn)(Informatics for Integrating Biology & the Bedside / National NLP Clinical Challenges,i2b2/n2c2)和只標(biāo)注醫(yī)療問題的命名實(shí)體語料庫(Shared Annotated Resources /Conference and Labs of the Evaluation Forum,ShARe/CLEF)健康評估實(shí)驗(yàn)室(eHealth Evaluation Lab)為典型代表?;谌瘴牡呐R床信息抽取評測主要是日本國家科學(xué)信息系統(tǒng)中心信息檢索系統(tǒng)測試集會(huì)議(NII Testbeds and Community for Information Access Research,NTCIR)會(huì)議組織的電子病歷評測。我國基于中文的臨床信息抽取評測主要有兩項(xiàng),分別是中國知識圖譜與語義計(jì)算大會(huì)(China Conference on Knowledge Graph and Semantic Computing,CCKS)和中國健康信息處理大會(huì)(China Conference on Health Information Processing,CHIP)每年組織的評測,均由中文信息學(xué)會(huì)主辦。本文基于國內(nèi)外典型臨床信息處理開放評測案例,首先介紹評測基本概況,重點(diǎn)分析評測語料、評測任務(wù)以及信息抽取方法,在此基礎(chǔ)上探討面向臨床需求的信息抽取發(fā)展方向,為基于中文臨床文本的進(jìn)一步分析與挖掘提供參考借鑒。
由美國國立衛(wèi)生研究院(National Institutes of Health,NIH)資助成立的生物醫(yī)學(xué)計(jì)算中心,自2006年起開始組織臨床記錄自然語言處理挑戰(zhàn)的研討會(huì),至今已舉辦10屆。鑒于i2b2在臨床自然語言處理方面做出的卓越貢獻(xiàn),這一系列評測于2018年被命名為美國國家臨床自然語言處理挑戰(zhàn)(National NLP Clinical Challenges,n2c2)。
主要針對歐洲語言進(jìn)行的信息檢索開放評測平臺,于2003 年開展第1屆多語言問答系統(tǒng)評測項(xiàng)目。2013年CLEF發(fā)布臨床信息抽取相關(guān)評測[1],基于該評測數(shù)據(jù)集,SemEval2014[2]和SemEval2015[3]相繼開展臨床文本語義相似度任務(wù)。
為滿足面向咨詢檢索與自然語言處理研究需要,日本國家科學(xué)咨詢系統(tǒng)中心(National Center for Science Information Systems,NACSIS)開展基于日文的信息檢索測試集(NACSIS Test Collections for IR,NTCIR)計(jì)劃,將數(shù)據(jù)集作為相關(guān)研究的基礎(chǔ)語料。在臨床信息抽取方面NTCIR自2013年起舉辦了4屆相關(guān)評測任務(wù)。
由中國中文信息學(xué)會(huì)語言與知識計(jì)算專業(yè)委員會(huì)主辦。2017年至今針對中文電子病歷開展連續(xù)3屆評測任務(wù)。
由中國中文信息學(xué)會(huì)醫(yī)療健康與生物信息處理專業(yè)委員會(huì)主辦,會(huì)議涉及醫(yī)療、健康和生物信息處理相關(guān)領(lǐng)域。CHIP自2018年起已連續(xù)開展兩屆臨床信息相關(guān)抽取評測。
開放評測語料概況,見表1。出院小結(jié)中含有大量臨床實(shí)體,因此大量臨床信息評測任務(wù)選取出院小結(jié)作為原始文本數(shù)據(jù)。臨床信息抽取任務(wù)中的標(biāo)準(zhǔn)評測數(shù)據(jù)需要領(lǐng)域?qū)<疫M(jìn)行數(shù)據(jù)篩選與人工標(biāo)注,從數(shù)據(jù)量角度,各評測任務(wù)中電子病歷數(shù)據(jù)量均未超過1 500份,說明臨床信息數(shù)據(jù)標(biāo)注難度較大。而幾個(gè)數(shù)據(jù)量較多的評測任務(wù),其量化數(shù)據(jù)的標(biāo)準(zhǔn)為句子和短語對,有些文本來源為互聯(lián)網(wǎng)開放數(shù)據(jù)。
表1 開放評測語料概況
續(xù)表1
3.2.1 臨床實(shí)體識別 從國內(nèi)外開放評測任務(wù)數(shù)量來看,最多的評測任務(wù)為實(shí)體識別,識別不同類別實(shí)體,主要為隱私和臨床實(shí)體。臨床信息特殊性在于極強(qiáng)的隱私性,因此去隱私識別是臨床信息抽取以及后續(xù)科學(xué)研究分析的重要先決條件,已有多個(gè)評測開展去隱私識別任務(wù)。i2b2 2006發(fā)布去隱私識別任務(wù),其中隱私信息包括患者姓名,醫(yī)生姓名,醫(yī)療和護(hù)理機(jī)構(gòu)名稱,ID號(識別醫(yī)療記錄、患者、醫(yī)生或醫(yī)院的數(shù)字),日期(包括所有類型日期,但不包括年份),地理位置,電話號碼和年齡(90歲以上的為隱私,90歲以下的不做處理)。i2b2 2014發(fā)布糖尿病患者醫(yī)療記錄去隱私識別任務(wù),在i2b2 2006的基礎(chǔ)上增加職業(yè)這一隱私類別。NTCIR 10(2013年)發(fā)布虛構(gòu)電子病歷的去隱私任務(wù)。i2b2 2016發(fā)布精神病臨床記錄的去隱私任務(wù)。電子病歷中蘊(yùn)含豐富的臨床實(shí)體,臨床實(shí)體識別是非結(jié)構(gòu)化臨床文本處理的首要、關(guān)鍵步驟。國外已發(fā)布許多臨床實(shí)體識別相關(guān)評測任務(wù)。i2b2 2009評測任務(wù)從出院小結(jié)中提取7種與藥品相關(guān)的屬性信息,包括藥品名稱、劑量、用藥方式、用藥頻率、用藥持續(xù)時(shí)間、用藥原因以及列表/敘述(藥品信息出現(xiàn)在列表結(jié)構(gòu)還是出院小結(jié)的敘述文本中)。該評測任務(wù)著眼于藥品相關(guān)信息,其提取可以為藥品不良反應(yīng)的提取提供基礎(chǔ)支撐。i2b2 2010評測任務(wù)分別為從病程記錄和出院小結(jié)中抽取醫(yī)療概念、醫(yī)療概念的修飾分類以及醫(yī)療概念之間的關(guān)系,該屆評測是i2b2 舉辦的醫(yī)療文本處理領(lǐng)域評測中最受廣泛關(guān)注的一屆。醫(yī)療概念抽取任務(wù)可視為一個(gè)信息抽取任務(wù),要求參賽者從無標(biāo)注的患者病歷中抽取醫(yī)療問題、治療和檢查3類實(shí)體;醫(yī)療概念的修飾分類任務(wù)要求參賽者識別病歷中醫(yī)療問題概念的修飾;醫(yī)療概念間的關(guān)系抽取任務(wù)主要識別醫(yī)療問題、檢查和治療3類概念之間的關(guān)系。i2b2 2014的冠心病風(fēng)險(xiǎn)因素識別任務(wù)中冠心病風(fēng)險(xiǎn)因素識別包括吸煙史、家族史、高血壓、高血脂等因素的危險(xiǎn)程度。n2c2 2018發(fā)布電子病歷中藥物與藥物不良反應(yīng)的實(shí)體與關(guān)系提取的評測任務(wù),從臨床記錄中提取藥物不良反應(yīng)對用藥安全以及新藥研發(fā)具有臨床指導(dǎo)意義。n2c2 2019發(fā)布家族史信息提取評測任務(wù)[27],家族史信息在疾病尤其是遺傳病的診斷和治療中有重要作用,但這些信息通常存在于非結(jié)構(gòu)化文本中,需要抽取家族史中的遺傳、生活習(xí)慣信息進(jìn)行輔助治療。CLEF 2013的評測任務(wù)包括病歷疾病概念的提取。NTCIR 10(2013年)的評測任務(wù)為主訴和診斷的提取,NTCIR 11(2014年)的評測任務(wù)之一為從電子病歷中提取疾病名稱。近年來基于中文電子病歷的臨床實(shí)體識別受到廣泛關(guān)注,相關(guān)評測任務(wù)也相繼開展。CCKS自2017年起開展臨床信息的命名實(shí)體識別任務(wù)。CCKS 2017評測任務(wù)識別的臨床實(shí)體包括癥狀和體征、檢查和檢驗(yàn)、疾病和診斷、治療以及身體部位5類。CCKS 2018評測任務(wù)聚焦現(xiàn)病史識別解剖部位、癥狀描述、獨(dú)立癥狀、藥物和手術(shù)5類臨床實(shí)體。CCKS 2019在結(jié)合前兩年評測任務(wù)的基礎(chǔ)上,識別疾病和診斷、檢查、檢驗(yàn)、手術(shù)、藥物以及解剖部位6類臨床實(shí)體。此外在CHIP 2018評測任務(wù)中增添對影像報(bào)告文本的識別,從影像報(bào)告文本中抽取所需的腫瘤原發(fā)部位、病灶大小和轉(zhuǎn)移部位,這一任務(wù)可以看作臨床實(shí)體識別與實(shí)際臨床需求的更緊密結(jié)合,通過自動(dòng)分析影像報(bào)告文本,更直觀地提供簡練的結(jié)構(gòu)化分析結(jié)果。CCKS 2019在CHIP 2018醫(yī)療實(shí)體及屬性抽取任務(wù)的基礎(chǔ)上發(fā)布影像報(bào)告文本中臨床醫(yī)療實(shí)體及屬性抽取。此外電子病歷中時(shí)間信息非常重要,i2b2 2012 評測任務(wù)抽取出院小結(jié)中的時(shí)間關(guān)系。以往實(shí)體識別任務(wù)多關(guān)注臨床意義明確的醫(yī)療實(shí)體,如疾病、治療等,而時(shí)間線作為電子病歷記錄中的關(guān)鍵信息也需要進(jìn)行結(jié)構(gòu)化,這一信息處理過程能為臨床提供更多的參考信息。
3.2.2 分類任務(wù) 除實(shí)體識別任務(wù)外,另一類評測任務(wù)為患者分類任務(wù)。從不同維度對電子病歷中的內(nèi)容標(biāo)記,進(jìn)而對患者進(jìn)行分類。i2b2 2006發(fā)布吸煙狀態(tài)識別評測任務(wù)。吸煙狀態(tài)識別數(shù)據(jù)由兩名肺科醫(yī)生共同進(jìn)行標(biāo)注,標(biāo)注不一致的地方再由另外兩名肺科醫(yī)生判斷。肺科醫(yī)生根據(jù)病歷信息和專業(yè)知識經(jīng)驗(yàn)將患者吸煙狀態(tài)分為5類:過去吸煙、當(dāng)前吸煙、吸煙、不吸煙和未知。吸煙狀態(tài)識別任務(wù)是一個(gè)分類任務(wù),基于電子病歷記錄對不同患者進(jìn)行吸煙狀態(tài)分類,有助于后續(xù)進(jìn)一步對不同類別患者進(jìn)行臨床研究。i2b2 2008 評測任務(wù)從出院小結(jié)中自動(dòng)抽取肥胖信息及15種常見并發(fā)癥,包括哮喘、動(dòng)脈粥樣硬化性心血管疾病、充血性心力衰竭、抑郁癥、糖尿病、膽結(jié)石/膽囊切除術(shù)、胃食管反流病、痛風(fēng)、高膽固醇血癥、高血壓、高甘油三酯血癥、阻塞性睡眠呼吸暫停、骨關(guān)節(jié)炎、外周血管病和靜脈功能不全。該評測任務(wù)與i2b2 2006的吸煙狀態(tài)識別任務(wù)類似,最終患者被分類為肥胖、不肥胖、可能肥胖與未提及4種類別。相比吸煙狀態(tài)識別任務(wù),肥胖與相關(guān)并發(fā)癥的識別具有更強(qiáng)的臨床意義,評測方法對后續(xù)相關(guān)并發(fā)癥與肥胖研究有指導(dǎo)意義。i2b2 2016發(fā)布精神病學(xué)評估記錄中患者精神病癥狀嚴(yán)重程度分類任務(wù)?,F(xiàn)代社會(huì)對精神疾病的定義越發(fā)清晰,從精神病學(xué)評估記錄中確定患者精神病癥狀嚴(yán)重程度能夠?qū)颊吆罄m(xù)治療給予有力干預(yù)。n2c2 2018臨床試驗(yàn)篩選任務(wù)從臨床記錄中確定患者是否符合臨床試驗(yàn)篩選標(biāo)準(zhǔn)。該評測新增了臨床試驗(yàn)篩選標(biāo)準(zhǔn),臨床試驗(yàn)是指通過受試者進(jìn)行藥物的系統(tǒng)科學(xué)研究,一般通過人工比較受試者病歷記錄和臨床試驗(yàn)篩選標(biāo)準(zhǔn)完成,這種方式費(fèi)時(shí)費(fèi)力且效率低下,通過自然語言處理和機(jī)器學(xué)習(xí)方法對臨床記錄進(jìn)行自動(dòng)解析并比對臨床試驗(yàn)篩選標(biāo)準(zhǔn),自動(dòng)進(jìn)行臨床試驗(yàn)篩選。CHIP 2019試驗(yàn)篩選標(biāo)準(zhǔn)短文本分類任務(wù)與n2c2 2018臨床試驗(yàn)篩選任務(wù)十分相似,通過自然語言與機(jī)器學(xué)習(xí)方法自動(dòng)從臨床記錄中提取符合臨床試驗(yàn)的受試者,具有廣闊的實(shí)際應(yīng)用前景和較高的臨床研究價(jià)值。NTCIR 13(2016年)的任務(wù)為tweet多標(biāo)簽分類任務(wù),將每條tweet標(biāo)記為8種疾病/癥狀陰性或陽性的兩種標(biāo)簽狀態(tài),共發(fā)布中、日、英3種語言的語料數(shù)據(jù),這一任務(wù)的原始數(shù)據(jù)已經(jīng)不屬于臨床信息領(lǐng)域,但是其目標(biāo)疾病/癥狀為流感、腹瀉/胃痛、花粉過敏、咳嗽/喉嚨痛、頭痛、發(fā)燒、流鼻涕和感冒,具有一定的臨床研究價(jià)值。
3.2.3 臨床術(shù)語標(biāo)準(zhǔn)化 醫(yī)學(xué)統(tǒng)計(jì)中不可或缺的一項(xiàng)任務(wù)。由于各種臨床實(shí)體有多種不同的表述形式,標(biāo)準(zhǔn)化工作能為臨床實(shí)體找到標(biāo)準(zhǔn)化的表述形式。這本質(zhì)上也是一種語義相似度匹配任務(wù),與臨床文本的相似度計(jì)算類似。i2b2 2011 評測任務(wù)是指代消解,關(guān)注實(shí)體之間等價(jià)關(guān)系,抽取出院小結(jié)、病程記錄和臨床報(bào)告等病歷文本中相同指代實(shí)體。n2c2 2019第1個(gè)與第3個(gè)評測任務(wù)分別為臨床文本語義相似度計(jì)算[28]和臨床術(shù)語標(biāo)準(zhǔn)化[29]。以往的評測任務(wù)多針對臨床記錄的臨床實(shí)體進(jìn)行識別,而電子病歷記錄的廣泛應(yīng)用也帶來一系列問題,由于可復(fù)制粘貼、模板的使用造成電子病歷冗余和錯(cuò)誤問題增多。臨床文本語義相似度計(jì)算任務(wù)旨在通過計(jì)算臨床文本之間的語義相似度,檢測和消除冗余信息,排查錯(cuò)誤,優(yōu)化臨床決策。在非結(jié)構(gòu)化臨床記錄中有效使用和交換臨床相關(guān)概念信息需要命名實(shí)體識別和命名實(shí)體規(guī)范化兩個(gè)互補(bǔ)過程。命名實(shí)體識別從臨床記錄中抽取臨床相關(guān)概念。命名實(shí)體規(guī)范化涉及將命名實(shí)體與標(biāo)準(zhǔn)化醫(yī)學(xué)術(shù)語中的概念聯(lián)系起來,將臨床上各種不同說法的概念找到對應(yīng)的標(biāo)準(zhǔn)術(shù)語概念,便于電子病歷進(jìn)行后續(xù)統(tǒng)計(jì)分析以及科學(xué)研究。TCIR 11(2014年)的任務(wù)是從電子病歷中提取疾病名稱與日期并將疾病名稱映射到ICD-10編碼中,旨在通過自動(dòng)方法完成疾病名稱與標(biāo)準(zhǔn)化詞/編碼的映射;NTCIR 12(2015年)任務(wù)在NTCIR 11(2014年)的基礎(chǔ)上更改為完成患者電子病歷記錄到ICD-10編碼的映射。CHIP 2018的問句相似度匹配任務(wù)針對中文互聯(lián)網(wǎng)上真實(shí)患者疾病問答數(shù)據(jù)進(jìn)行問句意圖匹配。CHIP 2019繼續(xù)開展疾病問答遷移學(xué)習(xí)評測任務(wù),與前一年度的問句相似度匹配任務(wù)類似,為疾病問答數(shù)據(jù)增添新的語料,后續(xù)可以進(jìn)行病種間的遷移學(xué)習(xí),這兩次評測任務(wù)的數(shù)據(jù)主體來源于互聯(lián)網(wǎng),為互聯(lián)網(wǎng)智能分診、智能客服等應(yīng)用提供基礎(chǔ)。CHIP 2019發(fā)布臨床手術(shù)術(shù)語標(biāo)準(zhǔn)化評測任務(wù),具體內(nèi)容為臨床手術(shù)術(shù)語的標(biāo)準(zhǔn)化,為中文手術(shù)術(shù)語標(biāo)準(zhǔn)化研究提供珍貴語料。
開放評測為臨床信息抽取研究領(lǐng)域提供珍貴的語料數(shù)據(jù),評測任務(wù)開展過程中參賽者選取的信息抽取方法為未來研究提供啟示。傳統(tǒng)方法多為字典、規(guī)則、隱馬爾科夫模型(Hidden Markov Model,HMM)、條件隨機(jī)場模型(Conditional Random Field,CRF)和支持向量機(jī)(Support Vector Machine, SVM)等,其中CRF模型在信息抽取領(lǐng)域取得較為顯著的成果。隨著神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的發(fā)展,越來越多的信息抽取任務(wù)采用深度學(xué)習(xí)方法,并結(jié)合傳統(tǒng)的規(guī)則與機(jī)器學(xué)習(xí)方法,如LSTM-CRF模型、BiLSTM-CRF模型等。中文相關(guān)臨床信息抽取評測較英文評測開展時(shí)間晚,相對來說方法更新穎,多采用融合方法,選取混合傳統(tǒng)規(guī)則與字典方法、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的模型。BERT(Bidirectional Encoder Representations from Transformers)模型[30]由Google AI團(tuán)隊(duì)于2018年11月提出,基于該模型已在自然語言處理相關(guān)任務(wù)中表現(xiàn)出較好性能,2019年CCKS和CHIP兩項(xiàng)信息抽取評測任務(wù)中幾乎所有評測隊(duì)伍都融合該模型并取得顯著效果。
開放評測中的實(shí)體識別、分類、標(biāo)準(zhǔn)化等任務(wù)是信息抽取的基礎(chǔ)性工作。在非結(jié)構(gòu)化臨床記錄中命名實(shí)體識別任務(wù)是從臨床記錄中抽取臨床相關(guān)概念的第1步,而這些臨床概念由于書寫錯(cuò)誤、不同的表述形式,難以有效地使用和交換。因此需要通過臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)將命名實(shí)體與標(biāo)準(zhǔn)化醫(yī)學(xué)術(shù)語中的概念聯(lián)系起來,為臨床上各種不同說法的概念找到對應(yīng)的標(biāo)準(zhǔn)術(shù)語概念,便于電子病歷進(jìn)行后續(xù)統(tǒng)計(jì)分析以及進(jìn)一步科學(xué)研究。臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)原理還可進(jìn)一步用于病歷書寫質(zhì)檢,提高電子病歷質(zhì)量,更好地為患者服務(wù)。這些臨床信息抽取任務(wù)可看作是臨床記錄打標(biāo)簽的過程,而臨床試驗(yàn)自動(dòng)篩選正是基于患者不同特征建模,進(jìn)而篩選出符合臨床試驗(yàn)的受試者。臨床文本相似度匹配任務(wù)可作為臨床信息檢索、患者健康問答的基礎(chǔ),能夠快速、準(zhǔn)確找到相似的臨床信息以及相關(guān)健康問答,為臨床科研以及健康科普提供有力支撐。
隨著醫(yī)學(xué)信息化與智能化不斷發(fā)展,電子病歷作為蘊(yùn)含豐富醫(yī)療資源的寶庫越來越受到重視。i2b2是臨床信息抽取評測領(lǐng)域中開展最早且持續(xù)發(fā)布不同臨床信息評測任務(wù)的機(jī)構(gòu),其歷年的評測任務(wù)主要從不同類型實(shí)體識別任務(wù)轉(zhuǎn)為臨床信息分類、臨床術(shù)語標(biāo)準(zhǔn)化以及臨床試驗(yàn)自動(dòng)篩選,更進(jìn)一步面向臨床信息處理的實(shí)際需求。中文臨床信息抽取相關(guān)評測雖然起步較晚,但受到的關(guān)注度較高。針對臨床術(shù)語的標(biāo)準(zhǔn)化研究工作,目前的評測任務(wù)只針對部分手術(shù)術(shù)語進(jìn)行標(biāo)準(zhǔn)化,基于疾病、治療等臨床實(shí)體的標(biāo)準(zhǔn)化以及基于臨床文本語義相似度計(jì)算的中文臨床信息抽取相關(guān)研究還有待進(jìn)一步開展。