黃源航,焦曉康,湯步洲,3,陳清財(cái),3,閆 峻,
(1.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055;2.醫(yī)渡云(北京)技術(shù)有限公司,北京 100191;3.鵬城實(shí)驗(yàn)室,廣東 深圳 518055)
隨著信息技術(shù)的快速發(fā)展,計(jì)算機(jī)技術(shù)在醫(yī)療領(lǐng)域得到了廣泛的應(yīng)用。如何利用計(jì)算機(jī)相關(guān)技術(shù)處理海量的臨床醫(yī)療數(shù)據(jù)是諸多學(xué)者一直在研究的熱點(diǎn)問題。其中,臨床術(shù)語標(biāo)準(zhǔn)化是臨床醫(yī)療信息處理領(lǐng)域的一個(gè)重要研究方向。
臨床上,由于醫(yī)療人員的記錄風(fēng)格存在差異,關(guān)于同一種診斷、手術(shù)、藥品、檢查、化驗(yàn)、癥狀等往往會(huì)有成百上千種不同的寫法。比如,在中文臨床醫(yī)療文本中,“先天性脊柱側(cè)彎”可以表述為“先天性脊柱側(cè)凸”,也可以表述為“先天性脊柱側(cè)彎畸形”;在英文臨床醫(yī)療文本中,“heart attack”“MI”和“myocardial infarction”都可以代表“心肌梗塞”的含義。臨床術(shù)語標(biāo)準(zhǔn)化就是要為臨床上各種不同表述找到對(duì)應(yīng)的標(biāo)準(zhǔn)表述。有了術(shù)語標(biāo)準(zhǔn)化的基礎(chǔ),研究人員才可以對(duì)臨床醫(yī)療文本進(jìn)行后續(xù)的統(tǒng)計(jì)分析。目前部分醫(yī)療機(jī)構(gòu)采用人工方式將臨床術(shù)語手動(dòng)規(guī)范化為標(biāo)準(zhǔn)術(shù)語,但是由于臨床術(shù)語專業(yè)性較強(qiáng),并且表述方式過于多樣,這種方式對(duì)工作人員專業(yè)知識(shí)要求較高,所需人力成本巨大,得到的標(biāo)準(zhǔn)化結(jié)果也往往不夠準(zhǔn)確。
第五屆中國健康信息處理會(huì)議(CHIP2019)組織了與中文臨床醫(yī)療信息處理相關(guān)的三項(xiàng)評(píng)測(cè)任務(wù),其中評(píng)測(cè)任務(wù)1為臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)。該評(píng)測(cè)任務(wù)鼓勵(lì)參賽者使用計(jì)算機(jī)技術(shù)對(duì)中文電子病歷中挖掘出的真實(shí)手術(shù)實(shí)體進(jìn)行語義標(biāo)準(zhǔn)化,即給定一手術(shù)原詞,將其自動(dòng)映射為手術(shù)詞表中對(duì)應(yīng)的手術(shù)標(biāo)準(zhǔn)詞。本次評(píng)測(cè)數(shù)據(jù)集由醫(yī)渡云(北京)技術(shù)有限公司提供,其中的手術(shù)原詞全部來自真實(shí)醫(yī)療數(shù)據(jù)。訓(xùn)練數(shù)據(jù)由專業(yè)人員依據(jù)《ICD9-2017協(xié)和臨床版》手術(shù)詞表對(duì)手術(shù)原詞進(jìn)行了人工標(biāo)注,將手術(shù)原詞手動(dòng)映射為手術(shù)詞表里的手術(shù)標(biāo)準(zhǔn)詞,標(biāo)注樣例如表1所示,其中多個(gè)標(biāo)準(zhǔn)詞用“##”分隔。參賽隊(duì)伍需要構(gòu)建系統(tǒng)將測(cè)試數(shù)據(jù)中的手術(shù)原詞映射到給定手術(shù)詞表里的手術(shù)標(biāo)準(zhǔn)詞。本次評(píng)測(cè)以準(zhǔn)確率(accuracy)作為評(píng)估指標(biāo)。最終,排名第一的參賽隊(duì)伍提交結(jié)果的準(zhǔn)確率為94.83%。本文將對(duì)此次評(píng)測(cè)任務(wù)中的數(shù)據(jù)、各支隊(duì)伍的提交結(jié)果以及評(píng)價(jià)指標(biāo)進(jìn)行分析和總結(jié)。
表1 CHIP2019評(píng)測(cè)任務(wù)1標(biāo)注數(shù)據(jù)樣例
臨床術(shù)語表述方式的不統(tǒng)一給醫(yī)療信息的整合、交換和共享等工作帶來了諸多障礙。因此,開展臨床術(shù)語標(biāo)準(zhǔn)化的相關(guān)研究有助于推動(dòng)醫(yī)療領(lǐng)域數(shù)字化、信息化建設(shè),實(shí)現(xiàn)高效率的全社會(huì)醫(yī)療資源共享。國外對(duì)于臨床醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化的探索起步較早,目前已經(jīng)做了許多研究工作。MetaMap是美國國立醫(yī)學(xué)圖書館建立的一個(gè)實(shí)現(xiàn)生物醫(yī)學(xué)文本到一體化醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS)概念映射的在線工具,它能標(biāo)記出生物醫(yī)學(xué)文本所包含的UMLS超級(jí)敘詞表(Metathesaurus)中的醫(yī)學(xué)概念。Aronson[1]對(duì)MetaMap的文本映射基本原理進(jìn)行了描述,即對(duì)于醫(yī)療文本,MetaMap使用基于規(guī)則的方法,通過計(jì)算文本中的名詞短語與檢索Metathesaurus得到的候選詞之間的匹配程度來查找并返回與此文本相關(guān)的Metathesaurus概念。然而,這種簡單的字符串匹配方法對(duì)數(shù)據(jù)要求較高,泛化能力不強(qiáng)。Leaman等人[2]提出了一個(gè)利用機(jī)器學(xué)習(xí)方法對(duì)醫(yī)療文本中的疾病名稱進(jìn)行標(biāo)準(zhǔn)化的模型DNorm。DNorm模型使用機(jī)器學(xué)習(xí)中的文檔對(duì)排序?qū)W習(xí)(pairwise learning to rank)技術(shù)對(duì)文本中發(fā)現(xiàn)的疾病名稱和知識(shí)庫中的實(shí)體概念進(jìn)行相似度打分并排序,最終返回分?jǐn)?shù)最高的候選概念或能夠在詞表中完全匹配的候選概念作為疾病名稱標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)概念。DNorm當(dāng)時(shí)在公開數(shù)據(jù)集NCBI上達(dá)到了最好的效果,但該模型在計(jì)算相似度時(shí)并沒有深入挖掘文本中所包含的語義信息。隨著深度學(xué)習(xí)技術(shù)的發(fā)展和計(jì)算性能的大幅提升,神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于醫(yī)療信息處理領(lǐng)域。Limsopatham和Collier[3]提出使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)或者長短期記憶網(wǎng)絡(luò)[4](long short-term memory,LSTM)對(duì)社交媒體中的文本進(jìn)行編碼,把每個(gè)醫(yī)學(xué)概念看作一個(gè)類別,將編碼后的文本表示經(jīng)過分類器映射到對(duì)應(yīng)的醫(yī)學(xué)概念上。這是深度學(xué)習(xí)技術(shù)首次被應(yīng)用到醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化任務(wù)中,相比傳統(tǒng)的字符串匹配或者機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)技術(shù)能夠更好地利用文本中所包含的語義信息。近些年來,國際上組織了多個(gè)與臨床術(shù)語標(biāo)準(zhǔn)化相關(guān)的評(píng)測(cè)任務(wù),比如CLEF(Conference and Labs of the Evaluation Forum)eHealth 2017[5]、eHealth 2018[6]和eHealth 2019[7]中的多語言信息抽取任務(wù),SMM4H(social media mining for health)2019[8]中的藥物副作用抽取以及標(biāo)準(zhǔn)化任務(wù),BioNLP(Biomedical Natural Language Processing Workshop)2019[9]中的藥品和化學(xué)實(shí)體標(biāo)準(zhǔn)化子任務(wù)。
由于我國醫(yī)療信息化發(fā)展進(jìn)程相對(duì)滯后,且醫(yī)療術(shù)語相關(guān)編碼體系建設(shè)起步較晚,目前國內(nèi)關(guān)于中文臨床術(shù)語標(biāo)準(zhǔn)化開展的研究較少。CHIP2019評(píng)測(cè)任務(wù)1是國內(nèi)首個(gè)聚焦于中文臨床術(shù)語標(biāo)準(zhǔn)化工作的評(píng)測(cè),旨在利用前沿的深度學(xué)習(xí)和自然語言處理技術(shù),推動(dòng)臨床術(shù)語標(biāo)準(zhǔn)化的相關(guān)研究工作。
CHIP2019評(píng)測(cè)任務(wù)1數(shù)據(jù)集中包含的所有手術(shù)原詞均是來自三甲醫(yī)院的真實(shí)醫(yī)療數(shù)據(jù),由醫(yī)渡云(北京)技術(shù)有限公司提供。訓(xùn)練集和驗(yàn)證集中分別包含了4 000條和1 000條手術(shù)原詞,對(duì)每條手術(shù)原詞以《ICD9-2017協(xié)和臨床版》 手術(shù)詞表為標(biāo)準(zhǔn)進(jìn)行了標(biāo)注,形成<原始詞,標(biāo)準(zhǔn)詞>對(duì)?!禝CD9—2017協(xié)和臨床版》 手術(shù)詞表為層級(jí)結(jié)構(gòu),層級(jí)越深,標(biāo)準(zhǔn)詞表述越具體,因此對(duì)于手術(shù)原詞,標(biāo)注原則為盡量查找層級(jí)深的標(biāo)準(zhǔn)詞,無法準(zhǔn)確對(duì)應(yīng)標(biāo)準(zhǔn)詞時(shí)再查找上級(jí)標(biāo)準(zhǔn)詞。
測(cè)試集中包含了2 000條手術(shù)原詞,要求參賽者給出其對(duì)應(yīng)的手術(shù)標(biāo)準(zhǔn)詞。表2展示了評(píng)測(cè)數(shù)據(jù)集的具體統(tǒng)計(jì)信息。除了訓(xùn)練集、驗(yàn)證集和測(cè)試集,此次評(píng)測(cè)還提供了《ICD9-2017協(xié)和臨床版》手術(shù)詞表,里面包含了9 867個(gè)手術(shù)標(biāo)準(zhǔn)詞。
表2 CHIP2019評(píng)測(cè)任務(wù)1數(shù)據(jù)集統(tǒng)計(jì)信息
訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)據(jù)分布基本保持一致。長度不超過20的手術(shù)原詞在訓(xùn)練集中占比約為94%,在驗(yàn)證集和測(cè)試集中將近95%,可以看出此次評(píng)測(cè)數(shù)據(jù)集中的手術(shù)原詞均為短文本。由于訓(xùn)練集、驗(yàn)證集和測(cè)試集里面出現(xiàn)的手術(shù)標(biāo)準(zhǔn)詞均來自《ICD9-2017協(xié)和臨床版》手術(shù)詞表,因此手術(shù)標(biāo)準(zhǔn)詞長度分布和手術(shù)詞表基本一致。由于數(shù)據(jù)集中的每條手術(shù)原詞可能對(duì)應(yīng)多個(gè)手術(shù)標(biāo)準(zhǔn)詞,如手術(shù)原詞“經(jīng)皮腎鏡碎石取石術(shù)(左側(cè))”對(duì)應(yīng)的手術(shù)標(biāo)準(zhǔn)詞為“經(jīng)皮腎鏡碎石術(shù)(PCNL)”和“經(jīng)皮腎鏡取石術(shù)”。這也是本次評(píng)測(cè)任務(wù)的難點(diǎn)之一。在訓(xùn)練集、驗(yàn)證集和測(cè)試集中,只對(duì)應(yīng)一個(gè)手術(shù)標(biāo)準(zhǔn)詞的手術(shù)原詞占比大約為95%,即大部分手術(shù)原詞對(duì)應(yīng)單個(gè)標(biāo)準(zhǔn)詞。關(guān)于數(shù)據(jù)集中手術(shù)原詞對(duì)應(yīng)手術(shù)標(biāo)準(zhǔn)詞個(gè)數(shù)的具體統(tǒng)計(jì)信息如圖1所示。
圖1 CHIP2019評(píng)測(cè)任務(wù)1手術(shù)原詞對(duì)應(yīng)標(biāo)準(zhǔn)詞個(gè)數(shù)統(tǒng)計(jì)信息
CHIP2019評(píng)測(cè)任務(wù)1以準(zhǔn)確率(accuracy,A)作為最終評(píng)估標(biāo)準(zhǔn)。本任務(wù)中,準(zhǔn)確率定義:給出正確的手術(shù)原詞加手術(shù)標(biāo)準(zhǔn)詞的組合除以待預(yù)測(cè)手術(shù)原詞的總數(shù)。具體計(jì)算如式(1)所示。
(1)
對(duì)于測(cè)試集中的第i條手術(shù)原詞,預(yù)測(cè)出的手術(shù)標(biāo)準(zhǔn)詞集合為Pi,真實(shí)對(duì)應(yīng)的手術(shù)標(biāo)準(zhǔn)詞集合為Gi,N是測(cè)試集中手術(shù)原詞的個(gè)數(shù)。需要說明的是,計(jì)算Pi和Gi的交集時(shí),遵循嚴(yán)格匹配原則,即預(yù)測(cè)出的手術(shù)標(biāo)準(zhǔn)詞必須與手術(shù)原詞真實(shí)對(duì)應(yīng)的某個(gè)手術(shù)標(biāo)準(zhǔn)詞完全匹配,否則不屬于交集。
CHIP2019評(píng)測(cè)任務(wù)規(guī)定每支參賽隊(duì)伍最多提交三份結(jié)果,取準(zhǔn)確率最高值作為該支隊(duì)伍的最終結(jié)果。本次評(píng)測(cè)共收到了47份提交結(jié)果,其中準(zhǔn)確率最高為94.83%,最低為35.11%,平均值為79.75%。表3為對(duì)評(píng)測(cè)任務(wù)1排名前十參賽隊(duì)伍系統(tǒng)的簡要描述,包括所使用的技術(shù)方法簡述以及是否使用外部資源(此評(píng)測(cè)任務(wù)允許使用公開數(shù)據(jù)資源和選手個(gè)人/組織的內(nèi)部資源,不允許執(zhí)行任何人工標(biāo)注)。
表3 CHIP2019評(píng)測(cè)任務(wù)1排名前十隊(duì)伍系統(tǒng)信息
可以看出,本次評(píng)測(cè)排名前十的大部分參賽隊(duì)伍都使用了預(yù)訓(xùn)練語言模型BERT[10](bidirectional encoder representation from transformers),證明了利用大規(guī)模語料進(jìn)行預(yù)訓(xùn)練得到的語言模型在自然語言處理領(lǐng)域的有效性。除了“GR-hwj”和“SXDX-djj”兩支隊(duì)伍,其余八支隊(duì)伍均將標(biāo)準(zhǔn)化任務(wù)當(dāng)成了文本相似度任務(wù)進(jìn)行處理。本質(zhì)上,臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)是語義相似度匹配任務(wù)的一種。但是由于原詞表述方式過于多樣,并且標(biāo)準(zhǔn)詞詞表通常規(guī)模較大,單一的匹配模型很難獲得很好的效果。部分隊(duì)伍除了文本匹配模塊,還加入了篩選匹配候選詞模塊,即通過相似度計(jì)算等手段為每個(gè)手術(shù)原詞篩選若干手術(shù)標(biāo)準(zhǔn)詞作為匹配候選,再將<手術(shù)原詞,手術(shù)標(biāo)準(zhǔn)詞>對(duì)輸入到文本匹配模型進(jìn)行關(guān)系判斷。相似度計(jì)算是較為常見的篩選候選方法,“YZS-cwf”采用多標(biāo)簽分類模型獲取匹配候選;“ALBB-cms”引入信息檢索技術(shù),使用檢索工具Lucene得到匹配候選;“ZKYF-xl”借鑒了生成模型的思想,利用Transformer[11]訓(xùn)練了端到端的翻譯模型輔助相似度計(jì)算?!癎R-hwj”將臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)分別當(dāng)作生成問題和分類問題進(jìn)行處理,融合了生成模型和分類模型的結(jié)果?!癝XDX-djj”則完全將臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)當(dāng)作生成問題,以Seq2Seq[12]模型為基礎(chǔ)構(gòu)建系統(tǒng)進(jìn)行標(biāo)準(zhǔn)詞預(yù)測(cè)。
測(cè)試集中一共有2 000條手術(shù)原詞,其中1 901條手術(shù)原詞對(duì)應(yīng)單個(gè)手術(shù)標(biāo)準(zhǔn)詞,99條手術(shù)原詞對(duì)應(yīng)多個(gè)手術(shù)標(biāo)準(zhǔn)詞。表4是評(píng)測(cè)任務(wù)1排名前十隊(duì)伍的系統(tǒng)在測(cè)試集上的評(píng)估結(jié)果,每列結(jié)果最高數(shù)值已加粗表示。其中“Acc”為在測(cè)試集整體2 000條數(shù)據(jù)集上計(jì)算的準(zhǔn)確率結(jié)果,“Acc-single”為在測(cè)試集中對(duì)應(yīng)單個(gè)手術(shù)標(biāo)準(zhǔn)詞的1 901條手術(shù)原詞上計(jì)算的準(zhǔn)確率結(jié)果?!癆cc-multiple”則是在測(cè)試集中對(duì)應(yīng)多個(gè)手術(shù)標(biāo)準(zhǔn)詞的99條手術(shù)原詞上計(jì)算的準(zhǔn)確率結(jié)果??梢钥闯觯捍舜卧u(píng)測(cè)排名前十隊(duì)伍對(duì)于單個(gè)手術(shù)標(biāo)準(zhǔn)詞的預(yù)測(cè)準(zhǔn)確率較高,前五支隊(duì)伍均接近0.9或者達(dá)到0.9以上,前十隊(duì)伍中“Acc-single”最高值與最低值之差為0.217 0。對(duì)于對(duì)應(yīng)多個(gè)手術(shù)標(biāo)準(zhǔn)詞的情況,前十隊(duì)伍系統(tǒng)預(yù)測(cè)結(jié)果比對(duì)應(yīng)的單個(gè)手術(shù)標(biāo)準(zhǔn)詞差,最高值為0.888 9,最低值為0.491 3,二者相差0.3976,說明各支隊(duì)伍系統(tǒng)在預(yù)測(cè)多個(gè)手術(shù)標(biāo)準(zhǔn)詞時(shí)性能差異相對(duì)較大。
表4 CHIP2019評(píng)測(cè)任務(wù)1排名前十隊(duì)伍系統(tǒng)評(píng)估結(jié)果
針對(duì)測(cè)試集中的2 000條手術(shù)原詞,其中前十支隊(duì)伍均沒有預(yù)測(cè)正確的手術(shù)原詞,一共有52條,可以將這些手術(shù)原詞看作系統(tǒng)普遍預(yù)測(cè)錯(cuò)誤的數(shù)據(jù)樣例。通過分析這些數(shù)據(jù)樣例,發(fā)現(xiàn)不易準(zhǔn)確預(yù)測(cè)的手術(shù)原詞可以主要?dú)w為以下三類:
(1)手術(shù)原詞對(duì)應(yīng)多個(gè)手術(shù)標(biāo)準(zhǔn)詞,這與上文展示的各支隊(duì)伍對(duì)于多標(biāo)準(zhǔn)詞的預(yù)測(cè)結(jié)果相符。
(2)手術(shù)原詞對(duì)應(yīng)的標(biāo)準(zhǔn)詞在訓(xùn)練集出現(xiàn)次數(shù)很少甚至沒有出現(xiàn)過,這給模型的訓(xùn)練增加了難度,模型無法準(zhǔn)確地學(xué)習(xí)到這些標(biāo)準(zhǔn)詞的相關(guān)信息。
(3)手術(shù)原詞對(duì)應(yīng)的手術(shù)標(biāo)準(zhǔn)詞在手術(shù)詞表中有相似的標(biāo)準(zhǔn)詞,模型在預(yù)測(cè)時(shí)難以有效地分辨這些相似標(biāo)準(zhǔn)詞的區(qū)別。
臨床術(shù)語標(biāo)準(zhǔn)化是醫(yī)療信息處理領(lǐng)域中的一個(gè)重要研究方向。在如今互聯(lián)網(wǎng)、大數(shù)據(jù)迅速發(fā)展的時(shí)代背景下,術(shù)語標(biāo)準(zhǔn)化有助于整合和利用規(guī)模龐大的、分散的、非結(jié)構(gòu)化的醫(yī)療信息數(shù)據(jù)。隨著人工智能的興起,自然語言處理相關(guān)技術(shù)的應(yīng)用逐漸滲透到醫(yī)療領(lǐng)域。如何利用自然語言處理等深度學(xué)習(xí)技術(shù)處理臨床術(shù)語標(biāo)準(zhǔn)化問題,是CHIP2019評(píng)測(cè)任務(wù)1關(guān)注的重點(diǎn)。
本文是對(duì)CHIP2019評(píng)測(cè)任務(wù)1的簡要概述。本次評(píng)測(cè)吸引了來自企業(yè)、高校和研究機(jī)構(gòu)的56支隊(duì)伍報(bào)名參加,一共接收了47組結(jié)果,最高準(zhǔn)確率達(dá)到了94.83%。參賽隊(duì)伍大多數(shù)以預(yù)訓(xùn)練語言模型BERT為基礎(chǔ)構(gòu)造了系統(tǒng)。相比于未引入預(yù)訓(xùn)練模型的系統(tǒng),這些以預(yù)訓(xùn)練語言模型為基礎(chǔ)的系統(tǒng)取得了較好的標(biāo)準(zhǔn)化效果。大多數(shù)系統(tǒng)對(duì)于對(duì)應(yīng)單標(biāo)準(zhǔn)詞的手術(shù)原詞預(yù)測(cè)效果較好,對(duì)于對(duì)應(yīng)多標(biāo)準(zhǔn)詞的手術(shù)原詞預(yù)測(cè)效果相對(duì)較差。通過分析預(yù)測(cè)錯(cuò)誤的數(shù)據(jù),總結(jié)了出錯(cuò)的主要類型,這是臨床術(shù)語標(biāo)準(zhǔn)化任務(wù)的主要難點(diǎn),也是未來研究工作中應(yīng)該關(guān)注的重點(diǎn)。