宗 輝 雷健波 李作峰
(同濟大學(xué) 上海200092) (北京大學(xué)醫(yī)學(xué)信息學(xué)中心 北京100091) (武田中國創(chuàng)新孵化器 上海 200126)
夏靜波 陳漠沙
(華中農(nóng)業(yè)大學(xué)信息學(xué)院 武漢 430070) (阿里巴巴 杭州 310000)
王曉玲 常德杰 康 波
(華東師范大學(xué) 上海 200062) (北京環(huán)球醫(yī)療救援 北京 100020) (醫(yī)渡云(北京)技術(shù)有限公司 北京 100191)
李 姣 湯步洲
(中國醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所 北京 100020) (哈爾濱工業(yè)大學(xué)(深圳)鵬城實驗室 深圳518055)
隨著醫(yī)院信息化的普及,醫(yī)療健康領(lǐng)域得到飛速發(fā)展,積累了海量且類型多樣的醫(yī)學(xué)數(shù)據(jù),例如發(fā)表文獻、醫(yī)療指南、醫(yī)學(xué)教材、檢驗數(shù)據(jù)、影像圖片、醫(yī)療發(fā)票、在線醫(yī)典百科、掃描報告圖像等[1-2]。這些數(shù)據(jù)以文本、表格、圖像等多模態(tài)形式存在,是進行臨床決策支持、診療路徑解釋、智慧醫(yī)院建設(shè)的重要資源[3-4]。
第八屆中國健康信息處理會議(China Conference on Health Information Processing, CHIP 2022)是中國中文信息學(xué)會(Chinese Information Processing Society of China, CIPS)醫(yī)療健康與生物信息處理專業(yè)委員會開展的以“信息處理技術(shù)助力探索生命之奧秘、提高健康之質(zhì)量、提升醫(yī)療之水平”為主旨的年度會議。CHIP是中國健康信息處理領(lǐng)域的重要會議,是世界各地學(xué)術(shù)界、企業(yè)界和政府部門的研究人員和從業(yè)人員分享創(chuàng)意,進一步推廣領(lǐng)域研究成果和經(jīng)驗的重要平臺。中國健康信息處理會議自2018年以來每年都組織技術(shù)評測[5-8]。本次CHIP 2022技術(shù)評測圍繞疾病主題,探索信息數(shù)字化技術(shù)、基因關(guān)聯(lián)信息、癥狀體征檢查知識、診療決策樹構(gòu)建和診斷自動編碼等研究內(nèi)容,公布了5項任務(wù): “面向‘基因-疾病’的關(guān)聯(lián)語義挖掘”“醫(yī)療因果實體關(guān)系抽取”“醫(yī)療文本診療決策樹抽取”“光學(xué)字符識別(Optical Character Recognition, OCR)醫(yī)療清單發(fā)票”和“臨床診斷編碼”。
本文從醫(yī)療多模態(tài)信息抽取的角度梳理上述數(shù)據(jù)集,希望能為研究者提供一套測試技術(shù)、算法和系統(tǒng)的高質(zhì)量數(shù)據(jù)集,為中國健康信息處理相關(guān)研究提供參考。
2.1.1 數(shù)據(jù)集構(gòu)建情況 在海量科學(xué)文獻中,基因與疾病的關(guān)聯(lián)機理通過突變和各類生物分子對象及其觸發(fā)詞進行描述,自然語言處理技術(shù)為自動挖掘這一隱性知識提供了可能,也為健康醫(yī)學(xué)信息的自動化處理提供了解決方案。為了從文獻中挖掘基因與疾病的關(guān)聯(lián)語義知識,研究者基于PubMed摘要文本構(gòu)建了活躍基因注釋語料庫(Active Gene Annotation Corpus, AGAC)[9]。該數(shù)據(jù)集注釋了8類觸發(fā)詞實體,涵蓋從分子水平到細胞水平的生物學(xué)現(xiàn)象和過程。實體類型包括5類生物概念實體(突變、相互作用、通路、分子生理活性、細胞生理活性)和3類調(diào)控概念實體(正調(diào)控、負調(diào)控、調(diào)控)。此外,AGAC還通過主事和致事兩個語義關(guān)系來描述主題和因果關(guān)系,從而呈現(xiàn)句子的語義信息。AGAC數(shù)據(jù)集主要包含3個特點,分別為數(shù)據(jù)不平衡、選擇性注釋和潛在主題注釋。基于該數(shù)據(jù)集,科研人員可以提取阿爾茨海默癥關(guān)鍵基因,研究抗癲癇藥物重定位,挖掘冠狀病毒病理知識。
2.1.2 子任務(wù)分析 在CHIP 2022評測中,任務(wù)1包括3個子任務(wù):觸發(fā)詞實體識別、語義角色識別、“基因-調(diào)控類型-疾病”三元組關(guān)系抽取。每個子任務(wù)的訓(xùn)練集包含250篇文獻,測試集包含2 000篇文獻。子任務(wù)1是傳統(tǒng)意義下的命名實體識別任務(wù),用以識別12類與“基因-疾病”有關(guān)的分子對象及其觸發(fā)詞實體,包括疾病(disease)、基因(gene)、蛋白質(zhì)(protein)、酶(enzyme)、突變(variation)、分子活性(molecular physiological activity)、互作(interaction)、通路(pathway)、細胞活性(cell physiological activity)、調(diào)控(regulation)、正調(diào)控(positive regulation)、負調(diào)控(negative regulation)。子任務(wù)2是一個語義角色標注任務(wù),語義角色包括ThemeOf和CauseOf。該子任務(wù)捕捉實體之間的語義依賴關(guān)系,用以構(gòu)建“基因-疾病”關(guān)聯(lián)。子任務(wù)3是一個三元組抽取任務(wù),針對“基因-疾病”的關(guān)聯(lián)機理調(diào)控類型進行相關(guān)語義的抽取,可利用子任務(wù)1和子任務(wù)2所獲得的觸發(fā)詞和語義角色,挖掘其背后的深層語義。調(diào)控類型包含4種對突變基因的語義描述,即功能喪失、功能獲得、功能調(diào)節(jié)和功能的復(fù)合變化。
2.2.1 數(shù)據(jù)集應(yīng)用價值 現(xiàn)代醫(yī)療強調(diào)解釋性,醫(yī)生在診斷、治療和評估上都要以患者為中心,突出醫(yī)療的因果關(guān)系。互聯(lián)網(wǎng)搜索引擎和線上問診平臺中含有大量醫(yī)學(xué)問答知識和診療信息,通過文本挖掘技術(shù)和深度學(xué)習(xí)技術(shù),從中抽取醫(yī)療因果關(guān)系,構(gòu)建因果關(guān)系解釋網(wǎng)絡(luò)和醫(yī)療因果知識圖譜,可以提升診療結(jié)果的邏輯性和可解釋性,也能有效改善患者就醫(yī)體驗。而目前國內(nèi)外尚無醫(yī)學(xué)因果解釋和推理方向的公開數(shù)據(jù)集。
2.2.2 數(shù)據(jù)集構(gòu)建情況 研究者構(gòu)建了首個中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集(Chinese Medical Causal Dataset, CMedCausal)。數(shù)據(jù)來源于線上問診和醫(yī)典百科,均為網(wǎng)上公開問診數(shù)據(jù),未涉及患者隱私信息。該數(shù)據(jù)集標注了文本中出現(xiàn)的醫(yī)學(xué)概念片段和醫(yī)學(xué)概念片段之間的關(guān)系。其中,醫(yī)學(xué)概念片段即為臨床發(fā)現(xiàn),內(nèi)容限定在以疾病為中心的文本,也包括實驗室檢驗結(jié)果和檢查結(jié)果。數(shù)據(jù)集定義了3類關(guān)鍵的醫(yī)學(xué)因果解釋推理關(guān)系:因果關(guān)系、條件關(guān)系和上下位關(guān)系。數(shù)據(jù)集標注人員包括1名醫(yī)學(xué)專家、1名人工智能算法專家和8名醫(yī)學(xué)專業(yè)學(xué)生,標注工作通過阿里巴巴夸克內(nèi)部的標注平臺完成。該數(shù)據(jù)集由9 153段醫(yī)學(xué)文本組成,總計79 244對實體關(guān)系。
2.3.1 數(shù)據(jù)集應(yīng)用價值 臨床決策支持系統(tǒng)旨在輔助臨床醫(yī)務(wù)人員更加高效地做出臨床診療。臨床診療可以看作是一個根據(jù)不同條件進行判斷,然后做出不同決策的過程。這種臨床診療過程可以被建模為診療決策樹,診療決策樹是由條件節(jié)點和決策節(jié)點組成的樹型結(jié)構(gòu),條件節(jié)點表示需要做出的條件判斷,決策節(jié)點表示需要做出的診療決策。診療決策規(guī)則是指將給定條件與醫(yī)療決策聯(lián)系起來,幫助醫(yī)生、患者和其他利益相關(guān)者對特定臨床問題做出適當?shù)墓芾?、選擇和決定。這些決策規(guī)則可以建模為診療決策樹。目前,診療決策樹的構(gòu)建往往依賴于醫(yī)學(xué)專家的人工標注,這種方式耗時費力,且新知識難以及時融入臨床決策支持系統(tǒng)[10]。通過智能化的信息抽取技術(shù)從龐大且快速積累的醫(yī)學(xué)文本中精確提取診療決策樹是一個可行的解決方案,但目前缺乏可用于模型構(gòu)建的公開可用數(shù)據(jù)集。
2.3.2 數(shù)據(jù)集構(gòu)建情況 針對上述問題,研究者構(gòu)建了醫(yī)療文本診療決策樹數(shù)據(jù)集(Medical Text to Medical Decision Tree Dataset, Text2DT),用于從醫(yī)療文本中抽取診療決策樹任務(wù)。Text2DT數(shù)據(jù)集來源于權(quán)威醫(yī)療機構(gòu)出版的臨床實踐指南和人民衛(wèi)生出版社出版的臨床醫(yī)學(xué)教科書。數(shù)據(jù)集標注人員包括2名醫(yī)學(xué)專家和6名相關(guān)領(lǐng)域研究人員。Text2DT數(shù)據(jù)集包含400例文本-決策樹對。三元組是診療決策樹的主要組成部分,共有6種關(guān)系,即臨床表現(xiàn)、治療藥物、治療方案、用法用量、基本情況、禁用藥物。診療決策樹的深度從2層到5層。一般而言,在三元組抽取完成后,需要進一步生成樹結(jié)構(gòu),從而將信息串聯(lián)形成一個完整的決策流程。Text2DT的任務(wù)目標是從給定的醫(yī)療文本抽取出診療決策樹。診療決策樹表示簡化的決策過程,即根據(jù)條件判斷的不同結(jié)果做出下一個條件判斷或決策。
2.4.1 數(shù)據(jù)集應(yīng)用價值 在醫(yī)療和保險行業(yè)存在大量紙質(zhì)文檔形式的醫(yī)療數(shù)據(jù),如就診病歷、繳費發(fā)票等。這些數(shù)據(jù)中含有豐富的信息,具有很高的商業(yè)和科研價值。目前這些數(shù)據(jù)通過業(yè)務(wù)人員手動錄入的方式進行登記。光學(xué)字符識別和自然語言處理等人工智能技術(shù)的發(fā)展及其在生產(chǎn)生活中各種相關(guān)應(yīng)用的普及,為醫(yī)療紙質(zhì)材料的信息自動化抽取提供了新的思路。這種智能化的解決方案一般包括兩個步驟,首先通過計算機視覺領(lǐng)域的目標檢測和目標識別等算法將紙質(zhì)掃描材料進行文本化;然后通過自然語言處理領(lǐng)域的信息抽取算法將這些文本信息結(jié)構(gòu)化。此外,與傳統(tǒng)方法不同,這些基于人工智能技術(shù)的新穎解決方案需要充足的標注數(shù)據(jù)進行模型訓(xùn)練,而缺乏高質(zhì)量的標注數(shù)據(jù)是相關(guān)研究發(fā)展的最大障礙。
2.4.2 數(shù)據(jù)集情況介紹 醫(yī)療材料OCR要素提取數(shù)據(jù)集(Medical Material OCR Feature Extraction Dataset, MedOCR)是當前最新的數(shù)據(jù)集,共包括1 700張醫(yī)療材料圖片。其中出院小結(jié)340張、購藥發(fā)票340張、門診發(fā)票340張、住院發(fā)票680張。數(shù)據(jù)集的原始數(shù)據(jù)來源于互聯(lián)網(wǎng),并經(jīng)過了嚴格的人工審核,為每類數(shù)據(jù)都定義了特定提取屬性。出院小結(jié)包含8個屬性,購藥發(fā)票包含8個屬性,門診發(fā)票包含34個屬性,住院發(fā)票包含37個屬性。MedOCR數(shù)據(jù)集采用準確率作為評測指標,只有屬性的預(yù)測值和標注值完全一致才判定為識別正確。這些來自于真實生活場景中的醫(yī)療材料圖片質(zhì)量不一、顏色清晰度各異,且含有各種干擾信息,對當前大多數(shù)模型都具有挑戰(zhàn)性。該數(shù)據(jù)集樣本量充足、類型多樣,有望推動醫(yī)療信息處理領(lǐng)域針對圖片文檔進行信息抽取研究的發(fā)展。
2.5.1 疾病分類與手術(shù)操作分類編碼發(fā)展情況 疾病分類與手術(shù)操作分類編碼是對患者疾病診斷和治療信息的加工過程,是病案信息管理的重要環(huán)節(jié)。病案編碼已成為醫(yī)院科學(xué)化、信息化管理的重要依據(jù)之一,在評估醫(yī)療質(zhì)量與醫(yī)療效率、設(shè)計臨床路徑方案、重點學(xué)科評價、醫(yī)院評審、疾病診斷分級、傳染病報告、醫(yī)療付款、合理用藥監(jiān)測等方面的應(yīng)用越來越廣泛、越來越深入。在諸多分類方案中,國際上最有影響力且最為普及的是國際疾病分類(International Classification of Diseases,ICD)。ICD是世界衛(wèi)生組織制定的國際統(tǒng)一的疾病分類方法,是目前國際上通用的疾病分類方法。中國也推出了《疾病分類與代碼國家臨床版2.0》和《手術(shù)操作分類代碼國家臨床版2.0》,并在部分醫(yī)院中得到了應(yīng)用。
2.5.2 數(shù)據(jù)集構(gòu)建情況 在CHIP 2022評測中發(fā)布的臨床診斷編碼任務(wù)數(shù)據(jù)集,主要目標是針對中文電子病歷進行診斷編碼。給定一次就診的相關(guān)診斷信息(包括入院診斷、術(shù)前診斷、術(shù)后診斷、出院診斷),以及手術(shù)名稱、藥品名稱、醫(yī)囑名稱,要求給出其對應(yīng)的國家臨床版2.0標準詞。該數(shù)據(jù)集中所有就診數(shù)據(jù)均來自于真實醫(yī)療數(shù)據(jù),并以《疾病分類與代碼國家臨床版2.0》詞表為標準進行標注。其中訓(xùn)練數(shù)據(jù)2 700條,測試數(shù)據(jù)337條。數(shù)據(jù)集以準確率作為最終評估指標。
醫(yī)療信息化的發(fā)展催生了海量且類型多樣的多模態(tài)數(shù)據(jù)。本文介紹了中國健康信息處理會議評測任務(wù)發(fā)布的5項數(shù)據(jù)集,包括基于“基因-疾病”的關(guān)聯(lián)語義挖掘數(shù)據(jù)集、中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集、醫(yī)療文本診療決策樹抽取數(shù)據(jù)集、醫(yī)療材料OCR要素提取數(shù)據(jù)集、臨床診斷編碼數(shù)據(jù)集。這些數(shù)據(jù)集有望為各種技術(shù)、算法以及系統(tǒng)的評估和實施提供有力的支撐和參考。未來將繼續(xù)補充類型更
加豐富的數(shù)據(jù),如影像數(shù)據(jù)、組學(xué)數(shù)據(jù)等,使醫(yī)療健康多模態(tài)大數(shù)據(jù)在真實世界研究中發(fā)揮應(yīng)用價值。