曠珊珊 白梅娟 郭趙斌 路巍 霍振宇 侯帥
摘? 要: 針對醫(yī)院人工導診效率和精確度較低的問題,提出了一種基于ATERDE(Automatic threshold Elites Regeneration Differential Evolution)和專家經(jīng)驗的混合DGC(Data Gravitation Classify)智能導診算法。采用一種基于自動閾值的ERDE算法(ATERDE),以選出最優(yōu)的客觀權重矩陣;將ATERDE算法與專家經(jīng)驗融合,構建包含主客觀信息的屬性重要度權重矩陣;最后提出一種兼顧全局引力與局部引力的DGC算法,以減少數(shù)據(jù)不平衡對分類結果的影響。實驗結果表明,該方法平均分類精度達到87%以上,精確度有明顯的提升。
關鍵詞: 混合權重; 專家經(jīng)驗; 數(shù)據(jù)引力; 智能導診
中圖分類號:TP39? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)03-36-05
Abstract: Aiming at the problem of low efficiency and precision of hospital manual triage, a hybrid Data Gravity Classification (DGC) intelligent triage algorithm based on Automatic Threshold Elites Regeneration Differential Evolution (ATERDE) and expert experience is proposed. ATERDE algorithm is used to select the optimal objective weight matrix;an attribute importance weight matrix containing subjective and objective information is constructed by integrating ATERDE algorithm with expert experience; finally, a DGC algorithm considering both global gravity and local gravity is proposed to reduce the influence of data imbalance on the classification results. The experimental results show that the average classification accuracy of this algorithm reaches more than 87%, it is significantly improved.
Key words: hybrid weight; expert experience; data gravitation; intelligent triage
0 引言
隨著全民醫(yī)療意識的提高,就醫(yī)人數(shù)逐年遞增。2018年國家統(tǒng)計局公布全國就醫(yī)人次達到了83.0802億人次,2019年增長至87.1987億人次,并且這個數(shù)據(jù)每年還以加速的趨勢增長[1]。有相關統(tǒng)計數(shù)據(jù)顯示,患者因為掛錯號而退號的比例高達46%[2]。如果能夠降低患者掛錯號的數(shù)量,將能極大地提高醫(yī)院的就診效率和患者的就醫(yī)滿意度[3]。
1 國內(nèi)外研究現(xiàn)狀
針對上述問題,一些學者開展了相關研究工作,采用專家經(jīng)驗知識的方式對患者就醫(yī)進行了導診[4]。FatemeMoghbeli使用Mamdani模糊算法,根據(jù)患者的初始生命體征和醫(yī)生的知識對患者進行分診 [5]。然而經(jīng)驗知識可使用的場景有限,并且容易受到專家水平因素的影響。
隨著人工智能的興起與發(fā)展,不少學者采用機器學習算法對患者進行分診[6]。北京協(xié)和醫(yī)院的劉曉穎和TangKenneth強調(diào)了智能分診的必要性和重要性[7-8]。馬鈺以輔助診療的結果為基礎,將Skyline查詢和局部范圍內(nèi)基于協(xié)同過濾的評分方式結合,提出了一種面向智能導診的個性化推薦算法[9]。單一機器學習的方法需要大量的訓練數(shù)據(jù),然而實際能夠獲取的醫(yī)院病例數(shù)量有限,因此近年來一些基于少量數(shù)據(jù)樣本的數(shù)據(jù)引力算法逐漸興起。
針對上述模型所存在的問題,有學者采用混合預測模型的方法來預測科室分類[10]。韓金亮利用改進離散Hopfeild神經(jīng)網(wǎng)絡和醫(yī)療專家系統(tǒng)的病情診斷混合算法,對醫(yī)療服務行業(yè)中病情給出良好的診斷結果[11]。但是這些算法僅僅是將兩種算法的結果進行并行預測和分診,并沒有將專家知識模型和數(shù)據(jù)模型進行更加有機的融合。目前基于專家知識和機器學習的算法已經(jīng)在一些領域取得良好的預測效果,但是在智能分診領域尚未見到關于串行的混合模型的研究。
針對上述問題,提出了一種基于ATERDE和專家經(jīng)驗的混合DGC智能導診算法。首先提出了一種基于自動閾值的ERDE算法(ATERDE),以選出最優(yōu)的客觀權重矩陣。其次將ATERDE算法與專家經(jīng)驗融合,構建包含主客觀信息的屬性重要度權重矩陣。最后提出一種兼顧全局引力與局部引力的DGC算法,以減少數(shù)據(jù)不平衡對分類結果的影響。
2 相關算法研究
2.1 DGC(Data Gravitation Classify)算法
將數(shù)據(jù)空間中的每一個樣本比作一個數(shù)據(jù)粒子,通過類比物理學中的萬有引力,比較不同數(shù)據(jù)類別對目標的數(shù)據(jù)引力來進行分類[12],引力計算公式如下:
2.2 ERDE算法
ERDE(Elites Regeneration Differential Evolution)算法是一種基于精英重生的差分優(yōu)化算法,其主要思想是基于初始種群進行變異,交叉,選擇操作,產(chǎn)生新一代種群,并使用柯西分布和高斯分布概率模型對精英解周圍的可選個體進行采樣,在其附近選擇一個新的個體,通過判斷新個體和上一代精英之間的適應度,將適應度大的個體保留下來作為下一代的精英種群。當?shù)螖?shù)滿足最大迭代次數(shù)時停止迭代,得到最終的精英群體[14]。
3 本文提出改進的算法
3.1 ATERDE算法
本文在種群迭代至后期時,對經(jīng)過交叉變異的個體適應度進行自動閾值判斷,如果不大于閾值,則重新進行交叉變異,直到滿足大于閾值的條件,再進行新一代精英的更新。從而保證再迭代后期精英質(zhì)量得到進一步提高。
3.4 算法步驟
根據(jù)領域專家醫(yī)生得到癥狀-科室專家經(jīng)驗權重矩陣,根據(jù)數(shù)據(jù)集中的數(shù)據(jù)利用ATERDE算法得到客觀權重矩陣,利用黃金融合算法將兩個矩陣進行融合,計算每個科室對待預測病例的全局引力和局部引力并進行融合,選取引力最大的科室作為待預測病例的預測科室。算法步驟如圖1所示。
算法步驟:
輸入:病例數(shù)據(jù)集[X={X1,X2,…,XQ}],待預測病例[X*={x*1,x*2,…,x*N}],其中[Q]為數(shù)據(jù)集中病例總數(shù)量,[N]為癥狀總數(shù)量。
輸出:待預測病例的科室分類結果。
Step 1:為病例數(shù)據(jù)集[X]中每個病例數(shù)據(jù)分配質(zhì)量[M={M1,M2,…,MQ}]。
Step 2:根據(jù)專家經(jīng)驗知識,運用AHP算法獲取專家經(jīng)驗權重矩陣[W]。
Step 3:利用ATERDE算法生成客觀權重矩陣[W']。
Step 4:運用黃金分割思想將兩組權重矩陣融合,得到最終的科室-癥狀權重矩陣[W'']。
Step 5:根據(jù)數(shù)據(jù)引力公式計算每個科室對目標病例X*的全局引力[Fglobal(X*,c)]。
Step 6:計算每個科室中,與目標病例相似度最高的K個病例對目標病例的局部引力[Flocal(X*,c)]。
Step 7:根據(jù)公式⒃計算每個科室對目標病例的X*最終引力:
[FfinalX*=FglobalX*,c+FlocalX*,c]? ⒃
Step 8:輸出對病例X*引力最大的科室,作為X*的預測科室。
4 實驗
4.1 數(shù)據(jù)說明
本文選取了四個國內(nèi)知名的醫(yī)療資源網(wǎng)站,采用Python爬蟲技術對其數(shù)據(jù)進行獲取,并利用數(shù)據(jù)挖掘和中文醫(yī)療命名實體識別技術,將對應的癥狀及科室信息挖掘出來,作為算法模型的數(shù)據(jù)庫,其相關信息如表1所示。
表1? 數(shù)據(jù)信息表
[數(shù)據(jù)編號 癥狀數(shù) 科室數(shù) 數(shù)據(jù)量 數(shù)據(jù)來源 數(shù)據(jù)集1 79 9 978 好大夫在線 數(shù)據(jù)集2 103 11 2076 尋醫(yī)問藥網(wǎng) 數(shù)據(jù)集3 136 13 1879 丁香園 數(shù)據(jù)集4 122 11 1023 39健康網(wǎng) ]
4.2 實驗結果
實驗采用K近鄰算法KNN、數(shù)據(jù)引力算法DGC、加權數(shù)據(jù)引力算法DGC+與基于ATERDE和專家經(jīng)驗的混合數(shù)據(jù)引力算法ATERDE+DGC四種算法,分別在四個數(shù)據(jù)集上采取十折交叉驗證作為各模型的評估算法進行了20次交叉驗證,對每個算法的ACC指標進行評估,實驗中設置萬有引力常量G=9.8,局部最近鄰數(shù)據(jù)個數(shù)K=5。
采用KNN、DGC、DGC+和ATERDE+DGC四種算法在四個數(shù)據(jù)集上的ACC結果如圖2和表2所示。
根據(jù)實驗結果可以看出,DGC算法的準確率高于KNN算法,這是因為KNN算法只考慮了距離目標最近的幾個樣本,而DGC算法則計算了每個類中的數(shù)據(jù)樣本,增加了樣本數(shù)量。而DGC+算法在DGC算法的基礎上,進一步考慮了屬性權重對分類效果的影響,從而得到了更高的精度。本文提出的ATEDE+DGC算法,通過融合專家經(jīng)驗和客觀數(shù)據(jù)對屬性權重進行優(yōu)化,同時綜合考慮全局引力與局部引力,在DGC+的算法上,得到了更高的精度。
5 結束語
為解決人工導診效率低和降低患者尋找科室錯誤的情況,本論文提出了一種基于ATERDE和專家的數(shù)據(jù)引力混合導診算法。本文提出的方法與KNN、DGC和DGC+算法相比,取得了較好的預測效果。本文的研究結果表明,混合模型能夠融合專家權重法良好的魯棒性和ATERDE方法良好的學習性能的優(yōu)勢。本文的研究內(nèi)容能夠為智能導診的混合模型預測奠定良好的理論基礎,也能為其他領域的混合模型預測奠定重要的理論基礎。
參考文獻(References):
[1] 國家統(tǒng)計局.中國統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社,2020:3-12
[2] 徐雪珍,陳建萍,顧躍英,等.門診掛錯號患者經(jīng)歷和心理體驗的質(zhì)性研究[J].護理與康復,2015,14(3):211-213
[3] Xusong Bu, Lin Lu, Zhan Zhang, et al. A General Outpatient Triage System Based on Dynamic Uncertain Causality Graph[J]. IEEE Access,2020,PP(99):1-1
[4] Moghbeli F, Langarizadeh M, Kiavar M, et al. Expert Triage System in Cardiology Emergency Department[J]. International Journal of Computer Science and Network Security,2018,18:100-104
[5] Jiang H, Mao H, Lu H, et al. Machine learning-based models to support decision-making in emergency department triage for patients with suspected cardiovascular disease[J].International Journal of Medical Informatics,2021,145:104326
[6] 劉曉穎,田麗源,高健,等.人工智能在急診分診決策中的應用現(xiàn)狀[J].護理研究,ISTIC PKU,2020,34(14):2490-2494
[7] Jonathon S, Peter S, Girish D. Artificial intelligence and machine learning in emergency medicine[J].Emergency Medicine Australasia Ema,2018,102
[8] Tahayori B, N Chini-Foroush, Akhlaghi H. Advanced natural language processing technique to predict patient disposition based on emergency triage notes[J]. Emergency Medicine Australasia,2020,78
[9] 馬鈺,張巖,王宏志,等.面對智能導診的個性化推薦算法[J].智能系統(tǒng)學報,2018,13(3):352-358
[10] Mccullough C L, Novobilski A J, Fesmire F M. Prediction of adverse outcomes of acute coronary syndrome using intelligent fusion of triage information with HUMINT[C]// Defense & Security Symposium.2006,1
[11] 李勇,黃俊.一種混合醫(yī)生推薦算法的研究[J].信息通信,2018(2):67-70
[12] Peng L, Bo Y, Chen Y, et al. Data gravitation based classification[J]. INFORMATION SCIENCES,2009,179(6):809-819
[13] Aguilera J, González-Gurrola LC, Montes-Y-Gómez M, et al. From Neighbors to Strengths- The k-Strongest Strengths (kSS) Classification Algorithm[J]. Pattern Recognition Letters,2020,136
[14] Deng L B, Zhang L L, Fu N, et al. ERG-DE: An Elites Regeneration Framework for Differential Evolution[J]. Information Sciences,2020,539
[15] Cano A, Zafra A, Ventura S. Weighted Data Gravitation Classification for Standard and Imbalanced Data[J]. IEEE Transactions on Cybernetics,2013,43(6):1672-1687
[16] 李蕊,李躍,徐浩,等.基于層次分析法和專家經(jīng)驗的重要電力用戶典型供電模式評估[J].電網(wǎng)技術,2014,38(9):2336-2341
3712501908239