夏 天,黃 冠,李 穎
(湖北省腫瘤醫(yī)院設(shè)備科,湖北武漢 430079)
隨著我國醫(yī)療體制改革的不斷推進,醫(yī)用直線加速器、麻醉機、CT、RI 等大型醫(yī)用設(shè)備在大多數(shù)省市地區(qū)醫(yī)院被廣泛配置[1-2]。然而,不合理配置醫(yī)用設(shè)備或者使用效率低等現(xiàn)象愈發(fā)嚴重,造成大型醫(yī)用設(shè)備資源日趨緊張。因此,合理、高效地進行大型醫(yī)用設(shè)備管理變得尤為重要[3-4]。而當(dāng)有突發(fā)公共衛(wèi)生危機時,如何在保障常規(guī)基礎(chǔ)衛(wèi)生需求的同時,快速調(diào)度大型醫(yī)療設(shè)備是當(dāng)前的研究熱點。
在我國,針對醫(yī)用大型設(shè)備配置、管理的研究開展較晚,且由于研究方法的標(biāo)準不一致,導(dǎo)致設(shè)備配置的公平性、適宜性無法進行對比[5-8]。近年來,物聯(lián)網(wǎng)技術(shù)開始被應(yīng)用在醫(yī)療設(shè)備的日常管理中[9-11]。該技術(shù)融合了智能感知、無線通信和智能識別技術(shù),是信息技術(shù)的重要組成部分。其基于互聯(lián)網(wǎng)匯總各類數(shù)據(jù),形成綜合物聯(lián)網(wǎng)。強化學(xué)習(xí)算法源于心理學(xué),是一種機器學(xué)習(xí)算法,其目的在于通過分析智能體產(chǎn)生的數(shù)據(jù)來學(xué)習(xí)系統(tǒng)最佳行為[12-16]。
文中使用物聯(lián)網(wǎng)技術(shù)采集設(shè)備日志數(shù)據(jù),將其作為調(diào)度優(yōu)化算法的數(shù)據(jù)源。以馬爾可夫決策過程為調(diào)度優(yōu)化算法的基礎(chǔ)模型,進而定義了各類函數(shù)。通過使用貪婪策略和Tanh 函數(shù)作為強化學(xué)習(xí)的動作探索策略和激活函數(shù),提高了對非線性復(fù)雜數(shù)據(jù)的學(xué)習(xí)能力。最終,基于DDPG 算法獲得了價值估計和行為估計。
文中所提的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù)主要用于醫(yī)用直線加速器、GE、麻醉機等大型或者急救相關(guān)的醫(yī)療設(shè)備的日常管理、調(diào)度,以實現(xiàn)醫(yī)療設(shè)備資源的高效率利用;同時當(dāng)有緊急需要時,可以科學(xué)、合理地調(diào)動這些醫(yī)療設(shè)備資源。由于這些設(shè)備涉及多種精密元器件和技術(shù),并且諸多功能并不能經(jīng)常用到,因此全面監(jiān)控各個醫(yī)用設(shè)備的關(guān)鍵參數(shù)對設(shè)備的維護也較為重要。
文中所提的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù)涉及兩個方面:一方面利用物聯(lián)網(wǎng)技術(shù)和云計算技術(shù)進行大型醫(yī)用設(shè)備底層關(guān)鍵參數(shù)的實時采集,實現(xiàn)對醫(yī)用設(shè)備即時狀態(tài)的監(jiān)控;另一方面利用深度強化學(xué)習(xí)算法分析采集到的數(shù)據(jù),以得到該設(shè)備的使用效率,以便合理安排設(shè)備的使用方式。其中,分別從年檢查人數(shù)、檢查項目數(shù)量等指標(biāo)來考察大型設(shè)備的使用情況,進而評估設(shè)備配置是否合理,是否可被應(yīng)急征調(diào),其具體架構(gòu)如圖1 所示。
圖1 醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù)結(jié)構(gòu)框架
深度強化學(xué)習(xí)包含了兩種模塊:深度學(xué)習(xí)模塊和強化學(xué)習(xí)模塊。兩種模塊分工各不相同,深度學(xué)習(xí)模塊被用來進行馬爾科夫決策過程的環(huán)境感知;而強化學(xué)習(xí)模塊則被用來確定決策控制的方向。深度強化學(xué)習(xí)智能訓(xùn)練過程如圖2 所示。
圖2 深度強化學(xué)習(xí)智能訓(xùn)練過程
醫(yī)用設(shè)備應(yīng)急調(diào)度問題可通過建模轉(zhuǎn)化為馬爾可夫決策過程。在該決策過程中,各個醫(yī)用設(shè)備被當(dāng)作智能體,這些智能體在不同時刻產(chǎn)生的信息通過狀態(tài)空間進行描述。每當(dāng)智能體執(zhí)行完一個動作時,均會得到系統(tǒng)一個獎勵。深度強化學(xué)習(xí)算法的目的在于,通過分析一系列智能體動作與獎勵的對應(yīng)關(guān)系來推斷使智能體得到最大獎勵的動作形式。
由于大型醫(yī)療設(shè)備數(shù)量和種類較多,并且每類醫(yī)用設(shè)備具有多種功能,因此,醫(yī)用設(shè)備調(diào)度問題屬于多智能體、多狀態(tài)問題。文中將醫(yī)用設(shè)備調(diào)度馬爾可夫建模,轉(zhuǎn)化成多個智能體馬爾可夫決策過程。使用深度強化學(xué)習(xí)算法作為調(diào)度優(yōu)化算法的關(guān)鍵在于狀態(tài)空間、動作空間及獎懲函數(shù)的定義。文中狀態(tài)空間被定義為3 個矩陣的形式:使用時間矩陣、任務(wù)分配布爾矩陣以及狀態(tài)布爾矩陣。矩陣的行代表不同的檢查項目,列代表不同的患者。第一行左邊的矩陣為使用時間矩陣,表示不同檢查項目使用該設(shè)備的時間;中間的矩陣為任務(wù)分配布爾矩陣,表示待檢查項目;右邊的矩陣表示該設(shè)備已經(jīng)完成的檢查項目。當(dāng)該設(shè)備下一狀態(tài)選擇患者1 進行第二個檢查項目時,狀態(tài)空間將會更新。以3×3(3 臺設(shè)備,3 個患者)醫(yī)用設(shè)備調(diào)度為例進行說明,如圖3所示。
圖3 狀態(tài)空間
動作空間表示的是設(shè)備在當(dāng)前狀態(tài)下,選擇任意患者的任意待測項目的行為。醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù)應(yīng)根據(jù)事先定義的規(guī)則實現(xiàn)為每一個決策點的待檢測項目分配優(yōu)先級。求解完成設(shè)備調(diào)度問題的候選待測項目規(guī)則如表1 所示。
表1 候選待測項目規(guī)則
獎懲函數(shù)用來評判智能體所選擇動作的優(yōu)劣,可調(diào)控醫(yī)用設(shè)備應(yīng)急調(diào)度算法的偏向。獎懲函數(shù)應(yīng)滿足下列3 個要求:
1)反映智能體行為的即時獎勵;
2)選擇優(yōu)化目標(biāo)作為獎懲函數(shù),以修正深度強化學(xué)習(xí)算法的收斂方向;
3)獎懲函數(shù)應(yīng)滿足不同規(guī)模的調(diào)度應(yīng)用,具有良好的普適通用性。
基于以上分析,文中將患者的檢查時間和所有檢查項目最小完成時間的組合作為獎懲函數(shù),其具體為:
式中,a、b分別為調(diào)節(jié)常數(shù),y為事例的最優(yōu)解,y′為深度強化學(xué)習(xí)算法預(yù)測的最小檢查完成時間。
通過以上分析可知,深度強化學(xué)習(xí)由深度學(xué)習(xí)和強化學(xué)習(xí)構(gòu)成。深度學(xué)習(xí)用于表征學(xué)習(xí),強化學(xué)習(xí)則用于提供控制目標(biāo)和選擇策略。經(jīng)過多次與周圍環(huán)境的交互,深度強化學(xué)習(xí)可實現(xiàn)自主學(xué)習(xí),不斷增強控制能力。
文中選擇用貪婪策略作為強化學(xué)習(xí)的動作探索策略,通過設(shè)定探索閾值p來進行動作的選擇。選定隨機數(shù)x,若x>p,則使用式(2)進行動作探索:
式中,n為動作空間的大小。當(dāng)g(t)=0 時,表明醫(yī)用設(shè)備沒有可執(zhí)行的檢查項目;當(dāng)g(t)=n時,表明醫(yī)用設(shè)備可執(zhí)行的檢查項目為n。若x
式中,h(a|s)為行為策略。
由于醫(yī)用設(shè)備應(yīng)急調(diào)度問題涉及較多的特殊環(huán)境,其模型并不能用簡單的線性模型進行擬合。文中使用Tanh 函數(shù)作為激活函數(shù),以提高對非線性復(fù)雜數(shù)據(jù)的學(xué)習(xí)能力。Tanh函數(shù)的表達式如式(4)所示:
該函數(shù)的取值范圍為[-1,1],適用于輸入數(shù)據(jù)特征相差較大的求解問題。
文中使用DDPG 算法進行經(jīng)驗數(shù)據(jù)采樣,以獲得價值估計和行為估計。針對醫(yī)用設(shè)備應(yīng)急調(diào)度問題,基于DDPG 算法的深度強化學(xué)習(xí)智能體被拆解為評論者網(wǎng)絡(luò)和行動者網(wǎng)絡(luò),這兩種網(wǎng)絡(luò)均使用卷積神經(jīng)網(wǎng)絡(luò)來搭建。在評論者網(wǎng)絡(luò)中,智能體通過評估動作的值來判斷該動作執(zhí)行后狀態(tài)的優(yōu)劣;而行動者網(wǎng)絡(luò)依據(jù)評論者網(wǎng)絡(luò)給出的估值作出相應(yīng)的反應(yīng),DDPG 算法更新形式如圖4 所示。
圖4 DDPG算法更新形式
為了使深度強化學(xué)習(xí)算法的效果最佳,該算法需要根據(jù)學(xué)習(xí)情況不斷修正參數(shù)。深度強化學(xué)習(xí)算法通過損失函數(shù)的計算得到評論者網(wǎng)絡(luò)的損失和行動者網(wǎng)絡(luò)的損失。評論者網(wǎng)絡(luò)的損失函數(shù)如式(5)所示:
式中,w為評論者網(wǎng)絡(luò)的參數(shù),r為即時獎勵,Q(s′,w)為下一狀態(tài)的估計值。
在涉及多個智能體調(diào)度問題時,當(dāng)某個智能體因采取某個行動而引起自身狀態(tài)改變后,其他智能體的狀態(tài)也會受到影響。因此,需要從所有智能體的狀態(tài)來考慮整體的調(diào)度問題。多智能體異步DDPG 訓(xùn)練形式及訓(xùn)練過程如圖5 所示。
圖5 多智能體異步DDPG訓(xùn)練形式及訓(xùn)練過程
所有智能體狀態(tài)構(gòu)成全局網(wǎng)絡(luò)模型,每一個智能體都從全局網(wǎng)絡(luò)中復(fù)制網(wǎng)絡(luò)參數(shù),并在該智能體所在的環(huán)境中單獨訓(xùn)練。全局網(wǎng)絡(luò)參數(shù)的更新取決于所有智能體的累計梯度。通過讓智能體在其所處的環(huán)境中訓(xùn)練網(wǎng)絡(luò)參數(shù),來避免智能體之間的狀態(tài)改變而影響網(wǎng)絡(luò)訓(xùn)練。
為了驗證文中所述應(yīng)急調(diào)度算法的有效性,選取某醫(yī)院的8 臺CT 設(shè)備一個月內(nèi)的使用情況作為研究對象,采集到的數(shù)據(jù)作為深度強化學(xué)習(xí)網(wǎng)絡(luò)的樣本數(shù)據(jù)進行模型訓(xùn)練,使用Matlab 作為算法仿真平臺。首次訓(xùn)練,將樣本數(shù)據(jù)中的五分之四用作模型訓(xùn)練,其余數(shù)據(jù)用于模型驗證。圖6和圖7 分別展示了隨著網(wǎng)絡(luò)節(jié)點個數(shù)的增加,r在不同的取值下,Q值之和以及平均獎賞值的變化趨勢。圖6 中,當(dāng)Q值曲線趨于穩(wěn)定時,代表深度強化學(xué)習(xí)算法趨于收斂。由圖6 可知,隨著r的增加,算法的收斂時間越來越小。圖7 中,曲線取值穩(wěn)定時,同樣代表算法收斂。圖7 中曲線穩(wěn)定的數(shù)值越低,即平均獎賞值越低,代表算法時延越小、性能越好。值得注意的是,隨著r的增加,平均獎賞值越大。由此可見,r的取值需要綜合收斂時間和平均獎賞值來考慮。
圖6 Q值之和與節(jié)點個數(shù)的關(guān)系曲線
圖7 平均獎賞值與節(jié)點個數(shù)的關(guān)系曲線
表2 為4 臺設(shè)備使用了文中所提應(yīng)急調(diào)度優(yōu)化算法和未使用調(diào)度算法時,進行相同檢測人數(shù)、檢查項目所使用時間的對比。從表中可以看出,實驗組在使用了文中所提醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化算法后,在相同患者人數(shù)、相同檢查項目情況下,整體檢查時間明顯縮短,平均縮短31.2%的時間。
表2 使用文中所述應(yīng)急調(diào)度算法與未使用調(diào)度算法的檢測時間對比
文中所提基于深度強化學(xué)習(xí)算法的醫(yī)用設(shè)備應(yīng)急調(diào)度優(yōu)化技術(shù),將物聯(lián)網(wǎng)技術(shù)和深度強化學(xué)習(xí)算法融入到設(shè)備調(diào)度優(yōu)化算法中。一方面通過物聯(lián)網(wǎng)技術(shù)采集大型醫(yī)用設(shè)備日常使用時的各類參數(shù),作為后續(xù)調(diào)度優(yōu)化算法的樣本數(shù)據(jù);另一方面使用深度強化學(xué)習(xí)算法來分析醫(yī)用設(shè)備在日常使用中的數(shù)據(jù),給出了狀態(tài)空間、動作空間以及獎懲函數(shù)的定義。同時,用貪婪策略作為強化學(xué)習(xí)的動作探索策略,使用Tanh 函數(shù)作為激活函數(shù),以提高對非線性復(fù)雜數(shù)據(jù)的學(xué)習(xí)能力。最終,使用DDPG 算法在經(jīng)驗數(shù)據(jù)中采樣獲得價值估計和行為估計。經(jīng)過仿真驗證和實際測試,證明了文中方案的有效性。