張妮楠 曹馨宇 林睿凡 王斌 史華新 周洪偉 謝琪
摘 要:中醫(yī)常采用自然語言描述疾病癥狀,導(dǎo)致癥狀命名不統(tǒng)一,影響數(shù)據(jù)挖掘分析和臨床療效評價結(jié)果。該研究主要以中醫(yī)臨床專病診療數(shù)據(jù)為研究對象,示范性地探索和整理了臨床診療數(shù)據(jù)中術(shù)語該如何規(guī)范化的問題,從語義分析的角度來規(guī)范化整理癥狀術(shù)語,在首選術(shù)語制定過程中引入術(shù)語屬性和術(shù)語間關(guān)系的概念,解決了癥狀間多詞一義、多義一詞的問題。參照ICD-11中文版整理了疾病診斷術(shù)語;參照《中國藥典》規(guī)范了中藥藥名;按照“治愈”“好轉(zhuǎn)”“未愈”分類整理療效評價術(shù)語。最終整理獲得癥狀術(shù)語558條,其中首選術(shù)語164條,同義術(shù)語394條;診斷術(shù)語23條;療效評價術(shù)語21條,規(guī)范后的數(shù)據(jù)可用于數(shù)據(jù)挖掘分析。
關(guān)鍵詞:癲癇診療數(shù)據(jù);數(shù)據(jù)規(guī)范化;首選術(shù)語;同義術(shù)語;術(shù)語屬性
中圖分類號:N04;R276文獻標識碼:ADOI:10.3969/j.issn.1673-8578.2021.02.006
Study on Standardization of Clinical Data of Epilepsy Diagnosis and Treatment//ZHANG Ninan, CAO Xinyu, LIU Ruifan, WANG Bin, SHI Huaxin, ZHOU Hongwei, XIE Qi
Abstract:Chinese medicine often uses natural language to describe the symptoms of the disease, which leads to inconsistent naming of the symptoms and affects the results of data mining analysis and clinical efficacy evaluation. Based on the diagnosis and treatment data of clinical special diseases of a famous Chinese medicine practitioner, this study explored on how to standardize the terminology in clinical diagnosis and treatment data. From the perspective of semantic analysis of standardization symptoms terms, we introduced the concept of the term properties and the relationships between terms in the process of establishing the preferred terms, and solved the problem of multi-word meaning and polysemy between symptoms. Also, we sorted out the disease diagnosis terms according to the ICD-11 Chinese version, standardized the names of traditional Chinese medicines according to Chinese Pharmacopoeia, and sorted the curative effect evaluation terms according to “cure”, “improvement”, and “unhealed”. We finally obtained 558 symptom terms, among which 164 were preferred terms, and obtained 394 synonymous terms, 23 diagnosis terms, 21 terms of efficacy evaluation. The standardized data can be used for data mining analysis.
Keywords: epilepsy diagnosis and treatment data; data standardization; preferred term; synonymous term; term properties
引言
開展中醫(yī)真實世界研究,基于臨床診療工作積累的病案,進行中醫(yī)藥個體化診療評價和分析,已經(jīng)成為中醫(yī)藥專家學(xué)術(shù)經(jīng)驗傳承、臨床有效藥物挖掘的重要途徑。中醫(yī)真實世界數(shù)據(jù)也已成為中醫(yī)臨床評價和藥物監(jiān)管決策證據(jù)體構(gòu)成的重要來源。從臨床診療病案中獲得的真實世界數(shù)據(jù),要通過數(shù)據(jù)相關(guān)性和可靠性評估其適用性,而數(shù)據(jù)規(guī)范化的工作更是數(shù)據(jù)研究與利用的首要關(guān)鍵環(huán)節(jié),只有規(guī)范化的數(shù)據(jù),才能夠成為研究資料而發(fā)揮其應(yīng)有的研究價值。
中醫(yī)真實世界數(shù)據(jù)有幾個特點:(1)非結(jié)構(gòu)化,即醫(yī)案數(shù)據(jù)主要來源于醫(yī)院電子信息系統(tǒng)存儲的門診或住院電子病歷、患者保留的門急診病歷手冊,數(shù)據(jù)分布在主訴、現(xiàn)病史、既往史、刻下癥等段落,每段的文字,由醫(yī)生在診療過程中以自然語言書寫而成,而不是從預(yù)設(shè)的字段中勾選,整體段落連貫,沒有字詞間的拆分結(jié)構(gòu)。(2)表達形式多樣。如痰熱相關(guān)證候術(shù)語,有痰熱內(nèi)蘊、痰熱蘊結(jié)、痰熱壅盛、痰熱互結(jié)、痰熱互阻、痰熱內(nèi)生等15種之多。(3)中醫(yī)癥狀術(shù)語外延模糊、復(fù)合癥狀隨意組合而癥狀的量化程度不足,如納呆有納差、納少、食少、飲食減少、食欲不振等表達,給數(shù)據(jù)的分析和利用帶來困難。這樣的問題引起了關(guān)注,全國科學(xué)技術(shù)名詞審定委員會先后審定發(fā)布了內(nèi)婦兒外等多個學(xué)科的《中醫(yī)藥學(xué)名詞》,給中醫(yī)藥學(xué)名詞以標準化的定義。黎敬波[1]等收集大量文獻和臨床病案,整理了常見癥狀術(shù)語2069條,分析了術(shù)語的使用習慣,并進行了解釋和規(guī)范;張啟明等人[2]以古代及近現(xiàn)代名家的數(shù)百部醫(yī)案及著作為語料庫對中醫(yī)癥狀學(xué)進行研究,得到了內(nèi)涵最小的癥狀399條,并按照五臟功能異常的臨床表現(xiàn)為分類框架,對癥狀術(shù)語進行分類;王永炎等人[3]通過文獻普查方式得到癥狀術(shù)語100余條、中西醫(yī)疾病1500余種。
這些工作為中醫(yī)術(shù)語的規(guī)范化提供了較好的基礎(chǔ),但是規(guī)范化術(shù)語的臨床轉(zhuǎn)化應(yīng)用相對不足,尤其體現(xiàn)在專病研究中。某種確定的病種或病證,術(shù)語相對密集,在整體的術(shù)語體系中呈偏性分布。如癲癇,我們在研究工作中嘗試采用現(xiàn)有術(shù)語集與病歷數(shù)據(jù)集中的術(shù)語進行比對和匹配,尚不能準確、成簇、翔實地刻畫癲癇的臨床表現(xiàn)。余瀛鰲在充分的文獻循證與臨床實踐的基礎(chǔ)上,提出“審因—辨病—辨證”相結(jié)合的“中醫(yī)通治”理論,癲癇促效方是其代表性通治方,他認為癲癇病理要素是痰、瘀,實多于虛。2014和2018年2篇博碩論文的主要結(jié)論也印證了這一觀點[4-5]。為了從真實世界數(shù)據(jù)中獲得依據(jù),進一步分析余瀛鰲診治癲癇的通治方及其病證人群特點和證治規(guī)律,本研究以余瀛鰲多年診治癲癇的門診病歷作為研究資料,進行系統(tǒng)的規(guī)范化整理,也為傳承中醫(yī)臨證經(jīng)驗的數(shù)據(jù)整理工作提供參考。
1 構(gòu)建癲癇臨床診療數(shù)據(jù)語料庫
語料來源:就診于中國中醫(yī)科學(xué)院中醫(yī)門診部和鼓樓中醫(yī)院京城名醫(yī)館余瀛鰲教授門診近十年的癲癇患者臨床診療病例信息。共收集數(shù)據(jù)243診例、1219診次,其中50%的數(shù)據(jù)缺少一般人口學(xué)信息如年齡、性別、出生日期;69%的數(shù)據(jù)缺少診療信息如主訴、現(xiàn)病史、既往史。一般人口學(xué)信息和診療信息數(shù)據(jù)完整的有121診例、329診次。
語料庫構(gòu)建:對數(shù)據(jù)進行去標識處理,選取既往史、現(xiàn)病史、刻下癥、處方部分。以患者ID號為主索引,以逗號為分隔符,將345條病歷數(shù)據(jù)拆分成3029條語料數(shù)據(jù),例如:“患者近期5次發(fā)作癲癇,均于每日凌晨2—3點發(fā)作,易流口水”。在同一主索引下有3條數(shù)據(jù),分別為“患者近期5次發(fā)作癲癇”“均于每日凌晨2—3點發(fā)作”“易流口水”,完整地存入Excel,通過人工校對,避免數(shù)據(jù)缺失或遺漏,保證數(shù)據(jù)的準確性、完整性。
2 癲癇癥狀術(shù)語的規(guī)范化
癥狀術(shù)語是中醫(yī)審因辨治的基礎(chǔ),來源于真實診療環(huán)境,數(shù)量龐大而表達多樣,例如:記憶力下降、憶減、記憶力減退、憶差等,臨床中都是用來描述健忘這一癥狀。癥狀術(shù)語的規(guī)范化主要分為三步,分別為語料庫構(gòu)建、癥狀術(shù)語獲取、建立首選術(shù)語與同義術(shù)語的映射關(guān)系,詳見圖1。
2.1 獲取癥狀術(shù)語
癥狀術(shù)語的獲取有直接提取核心詞、復(fù)合癥狀詞拆分、語義分析提煉3種形式。對于不影響用藥判斷含癥狀屬性的術(shù)語特點,可通過核心癥狀抽取,直接獲取癥狀術(shù)語。相比從標準中獲取癥狀術(shù)語,基于臨床病歷中癥狀術(shù)語更加豐富多樣,涉及癥狀較復(fù)雜,多涉及癥狀屬性的描述,如疼痛性質(zhì)、程度、持續(xù)時間、加重緩解因素等,門診病歷數(shù)據(jù)不僅涉及癲癇的主癥、兼癥、伴隨癥狀,還涉及其他診斷,這些術(shù)語在概念和層次上較標準文件中術(shù)語復(fù)雜。本研究首先抽取詞條中的核心癥狀,從3029條語料中抽取核心癥狀1674條。例如“發(fā)作時突
然昏倒”是以時間狀語修飾核心癥狀,根據(jù)核心癥狀抽取法從中得到術(shù)語“突然昏倒”。
對于不影響用藥判斷的復(fù)合術(shù)語,可采取復(fù)合癥狀術(shù)語拆分的方式。對于抽取的1674條核心癥狀術(shù)語,去重后得到675條癥狀術(shù)語,篩選出其中復(fù)合癥狀術(shù)語65條,復(fù)合癥狀多由兩個癥狀組成,臨床上這些癥狀多不同時出現(xiàn),拆分后既可以單獨統(tǒng)計癥狀—藥物的相關(guān)性,也可通過術(shù)語關(guān)系建立兩個癥狀同時出現(xiàn)的強關(guān)聯(lián)性再進行挖掘分析,因此本研究對復(fù)合癥狀予以拆分。例如“口干渴”拆分成“口干”和“口渴”。
對于描述性無核心癥狀的術(shù)語特點,需采用語義歸納間接獲取癥狀。語義歸納是指根據(jù)自然語言描述的內(nèi)容,來歸納所要表達的臨床癥狀。它是對癥狀的描述性解釋,也必將影響臨證加減和遣方用藥。語料具有敘述性的特點,如“兩年前曾來就診”類似此類語料不包含癥狀術(shù)語;再如“大便3~4日一行”雖為敘述性語料且沒有核心癥狀,但卻能從語義歸納提煉核心癥狀為“便秘”。本研究通過語義歸納得到癥狀術(shù)語5條。
2.2 確定首選術(shù)語
首選術(shù)語指當一個概念出現(xiàn)正名和別名時,根據(jù)臨床用語習慣或使用頻率,選其一為首選術(shù)語,同義術(shù)語為與首選術(shù)語含義相同的其他術(shù)語。對于通過語義義類法獲得的204類術(shù)語,按照首選術(shù)語的選取原則,選其一用于數(shù)據(jù)的挖掘分析。首選術(shù)語的制定應(yīng)當滿足以下原則:(1)出處明確;(2)符合中醫(yī)藥表達習慣,當出現(xiàn)現(xiàn)代表達與古語表達時以現(xiàn)代表達方式為首選;(3)語義完整;(4)語義單一;(5)滿足本次研究需要;(6)當出處不明時應(yīng)同時滿足條件(2)(3)(4)。
本研究以全國科學(xué)技術(shù)名詞審定委員會《術(shù)語工作原則與方法》《中醫(yī)藥學(xué)名詞審定原則與方法》為依據(jù),在遵循科技術(shù)語單義性、簡明性、約定性的命名原則下,以《WHO西太平洋地區(qū)傳統(tǒng)醫(yī)學(xué)名詞術(shù)語國際標準》[6]《中醫(yī)藥學(xué)名詞》[7]《中醫(yī)藥常用名詞術(shù)語詞典》[8]《中醫(yī)大辭典》[9]《中醫(yī)癥狀鑒別診斷學(xué)》[10]《中醫(yī)臨床常見癥狀術(shù)語規(guī)范》[1]等為藍本,并前期從整理規(guī)范文件來構(gòu)建癲癇中醫(yī)癥狀術(shù)語詞典的基礎(chǔ)上進行癲癇臨床診療癥狀術(shù)語規(guī)范化工作,在諸多同義表達中選擇有明確出處的術(shù)語作為標準術(shù)語。還有一類術(shù)語查閱了參考藍本和各個知識平臺,如北京大學(xué)中國語言學(xué)研究中心語料庫、術(shù)語在線、wordnet等沒有收錄的術(shù)語,則按照文獻等級、使用頻次、用語習慣等,選其一為首選術(shù)語。本研究共獲取癥狀首選術(shù)語164條。
首選術(shù)語用于數(shù)據(jù)挖掘分析時應(yīng)該根據(jù)挖掘需求來選擇術(shù)語層級,例如《中醫(yī)藥學(xué)名詞》載錄的失眠(insomnia)指經(jīng)常性的睡眠減少,或不易入睡,或睡眠短淺而易醒,甚或徹夜不眠的表現(xiàn)。本研究根據(jù)其概念將失眠列為上位術(shù)語,入睡難和醒后難入睡歸為下位術(shù)語,在不同研究的數(shù)據(jù)分析階段則需要根據(jù)研究目的和數(shù)據(jù)特點,選擇上位術(shù)語或下位術(shù)語作為首選術(shù)語,本研究根據(jù)余瀛鰲臨證用藥特點,選取上位術(shù)語為首選術(shù)語進行數(shù)據(jù)挖掘,首選術(shù)語中涉及術(shù)語上下位關(guān)系的為16條(表1)。
上下位術(shù)語關(guān)系還涉及術(shù)語的屬性。按照首選術(shù)語的制定原則,本研究根據(jù)研究需要在選擇首選術(shù)語時,去除癥狀屬性保留核心癥狀作為首選術(shù)語,含有屬性的其他術(shù)語在本研究中暫且作為同義術(shù)語,首選術(shù)語用于數(shù)據(jù)挖掘分析,涉及術(shù)語屬性類型有5種(表2)。