曹凱迪,施識帆,王忠民
(南京醫(yī)科大學第一附屬醫(yī)院 信息處,江蘇 南京 210029)
隨著醫(yī)療信息化的快速發(fā)展,住院電子病歷在臨床中得到廣泛應用,作為患者住院治療全過程的原始記錄,它包含有入院記錄、病案首頁、病程記錄、檢查檢驗結果、住院醫(yī)囑、手術記錄等信息[1],這些數(shù)量龐大且完善的電子資料數(shù)據(jù),給臨床科研提供了很大便利,很多臨床輔助決策系統(tǒng)(CDSS)將其當作重要的知識來源。入院記錄是臨床醫(yī)生在患者入院之初的醫(yī)療記錄,包含了患者的入院病因、簡要病史等,常會包含患者在此次入院前的既往就診信息。研究患者既往就診歷史醫(yī)院,可以分析患者對就醫(yī)機構選擇的考慮因素。
自從機器學習方法中的命名實體識別廣泛應用于英文電子病歷的研究后,已經有越來越多的科研工作者將該技術用于中文電子病歷的研究。當前使用較多的機器學習模型是條件隨機場(CRF),該模型相對比其他模型比如支持向量機(SVM)、隱馬爾可夫(HMM)等具有無標注偏見、可求得全局最優(yōu)值、小規(guī)模數(shù)據(jù)可獲得理想效果等優(yōu)點。葉楓等[2]采用算法工具CRF++,提出了CRF特征選擇和模板設計應用于中文病歷中的一些基本規(guī)則,得到3類實體的最佳F值分別為92.67%、93.76%和95.06%。許源等[3]針對腦卒中患者入院記錄中的醫(yī)學實體構建了基于CRF和RUTA規(guī)則的命名實體抽取模型,經五折交叉驗證獲得實體的抽取準確率0.960,召回率0.916,F(xiàn)-score 0.939。
目前對于患者就醫(yī)醫(yī)院選擇的影響因素研究大多基于調查問卷進行,耗費人力物力,因此本研究采用機器學習的方法對入院記錄信息進行分析挖掘,通過構建命名實體模型實現(xiàn)入院記錄中的就診醫(yī)院名稱的抽取,進而分析患者就醫(yī)醫(yī)院選擇的影響因素。
江蘇省人民醫(yī)院暨南京醫(yī)科大學第一附屬醫(yī)院是江蘇省綜合實力最強的三級甲等綜合性醫(yī)院,擔負著醫(yī)療、教學、科研、行風四項中心任務,實際開放床位4000張,每年有大量的住院患者,僅2018年一年出院人次就為16.8萬,產生龐大的住院電子病歷數(shù)據(jù)量。本文研究數(shù)據(jù)的原始語料是從2008-2018年間該院收治的住院患者的電子病歷中隨機抽取的1000份入院記錄,因醫(yī)生記錄病歷習慣不同以及患者就診歷史不同,其中330份語料中包含了患者既往在其他醫(yī)院就診的歷史作為有效標注語料,另抽取26219份入院記錄作為數(shù)據(jù)抽取模型驗證的語料,所有語料均做了脫敏處理。
本研究目的是通過命名實體識別的技術獲取患者此次在江蘇省人民醫(yī)院住院前的歷史就診醫(yī)院名稱,包含此類信息的文本是患者的住院電子病歷中的入院記錄,語料來源類型單一,實體類別單一,綜合考慮我國醫(yī)院行政級別劃分的情況并結合病歷中實際描述情況,將待標注醫(yī)院名稱劃分為5類實體:省級醫(yī)院(ProvinceHSP)、市級醫(yī)院(CityHSP)、縣區(qū)級醫(yī)院(CountyHSP)、社區(qū)醫(yī)院(CommunityHSP)、以及無明確說明醫(yī)院名稱只概括提到的當?shù)蒯t(yī)院(LocalHSP),在實際標注過程中,遇到的軍隊所屬醫(yī)院全部歸為ProvinceHSP一類。
語料標注工作由兩個人完成,在統(tǒng)一命名實體標注標準并對標注工作人員進行培訓后,從330份語料中抽取120,由兩名研究人員各自對80份語料進行標注,其中有40份語料是完全相同的。兩人標注完成后對這相同的40份語料進行一致性驗證,第一次標注的一致性F值達到0.9以上才可以繼續(xù)語料標注工作。
語料標注與后續(xù)的模型生成、數(shù)據(jù)抽取工具均是醫(yī)學自然語言處理平臺系統(tǒng)-PLATO,此系統(tǒng)集成了機器學習方法和深度學習方法,能實現(xiàn)對文本的標注以及自然語言實體抽取模型的快速構建,以及應用交叉驗證等方法對模型的效果進行綜合性能評估。通過該平臺構建模型后,可以實現(xiàn)對非結構化醫(yī)療文本數(shù)據(jù)進行準確地識別和提取。
本文采用PLATO系統(tǒng)中集成的CRF算法來構建抽取模型,然后使用五折交叉驗證的方法對模型效果進行準確率驗證。采用CRF的原因是它使用的概率圖模型,能夠表達長距離依賴性和交疊性特征,從而更優(yōu)地解決標注(分類)偏置等問題,并且所有特征可以進行全局歸一化,以求得全局的最優(yōu)解[4]。
因本文研究的實體只涉及到醫(yī)院名稱,不存在主觀判斷,對標注人員的醫(yī)學知識沒有要求,所以兩名標注人員對40份相同的語料標注的第一次的F值達到0.950,滿足多人標注的一致性要求,繼續(xù)完成剩下290份語料的標注。之后采用PLATO平臺集成的CRF算法作為構建自然語言模型的核心算法,此算法獲得的5類實體的準確率、召回率、F-score平均值分別為0.946、0.896、0.917(表1)。其中F-score較高的前4個實體均超過了0.9,表現(xiàn)良好。CommunityHSP的F-score較低,原因是社區(qū)醫(yī)院在患者的就診歷史中出現(xiàn)次數(shù)非常少,訓練樣本數(shù)量太少導致模型的F-score較低,這一現(xiàn)象在語料標注時已顯現(xiàn)。
表1 330份入院記錄中5類命名實體抽取的交叉驗證準確率
將此模型用于江蘇省人民醫(yī)院入院記錄中隨機抽取的26219份語料進行實體抽取,共獲取命名實體數(shù)據(jù)11254條,實體數(shù)據(jù)小于語料數(shù)量的原因有二:1)醫(yī)生書寫病歷中未涉及到患者既往就診醫(yī)院;2)患者在此次入院前無其他醫(yī)院就診歷史。在實體數(shù)據(jù)中,以LocalHSP數(shù)量最多(圖1),占總數(shù)的51.3%,這與醫(yī)生的書寫習慣和患者所述病史是否清晰有關系。另外4類實體中,我們發(fā)現(xiàn),數(shù)據(jù)量按省-市-縣區(qū)-社區(qū)依次減少,這與我國衛(wèi)生資源的倒三角配置有關系,技術水平優(yōu)秀的醫(yī)務人員、先進的醫(yī)療資源都集中在大城市的大醫(yī)院,基層醫(yī)療機構衛(wèi)生資源薄弱[5],所以患者更愿意到省市級大醫(yī)院就診。
圖1 26219份入院記錄中命名實體抽取數(shù)量與占比統(tǒng)計
針對這4類實體進行詳細分析,將醫(yī)院按照所屬省份分類(表2),5478個實體中江蘇省的醫(yī)院占大部分,其次是軍隊、安徽省和上海市的醫(yī)院。從地理位置上看,安徽省和上海市緊挨江蘇,兩地患者到江蘇省人民醫(yī)院就診距離近而且交通便利,這符合患者傾向于就近就醫(yī)的心理。
表2 患者就診歷史醫(yī)院數(shù)據(jù)按省份分布統(tǒng)計
具體到江蘇省內的醫(yī)院(表3),南京市醫(yī)院數(shù)量最多,因江蘇省人民醫(yī)院位于省會南京,在本市有高水平的大醫(yī)院的情況下,南京市患者去外地就醫(yī)的意愿會降低。進一步分析南京之外的醫(yī)院(圖2),揚州、常州和鹽城的醫(yī)院排在前三,這三個城市在地域上靠近南京,且市內沒有高水平省級醫(yī)院,從患者就診醫(yī)院選擇傾向于技術水平高和距離近兩個原因分析,符合患者心理。排在后三位的是徐州、南通和蘇州,南通與蘇州到上海的距離要近于南京,且上海有更多的高水平三甲醫(yī)院,從上述兩個原因考慮,比南京對這兩個城市的患者更有吸引力。
表3 患者就診歷史醫(yī)院在江蘇省內按城市分布統(tǒng)計
圖2 患者就診歷史醫(yī)院在江蘇省南京市之外的城市分布示意圖
本文建立了統(tǒng)一的命名實體標注體系,對330份江蘇省人民醫(yī)院住院電子病歷的入院記錄進行了標注,標注一致性F值為0.95。基于標注好的語料庫,結合CRF算法,構建了入院記錄中醫(yī)院名稱的命名實體抽取模型,獲得5類實體的平均準確率、召回率、F-score分別為0.946、0.896、0.917。之后使用該模型對該院入院記錄中隨機抽取的26219份語料進行結構化抽取,共獲取命名實體11254條。通過對實體的進一步分析,得到了江蘇省人民醫(yī)院住院患者的來源分布數(shù)據(jù),患者在就診醫(yī)院的選擇上具有技術水平高、醫(yī)療資源好、就近就醫(yī)的偏好,此結論與既有文獻相關發(fā)現(xiàn)一致[6]。由此可見完善分級診療政策體系,優(yōu)質醫(yī)療資源有效下沉,提高基層醫(yī)療衛(wèi)生服務能力的工作任重道遠[7]。