吳少峰 周瑞豪 郝學超 張偉義 舒紅平 王亞強 朱 濤
(1.成都信息工程大學軟件工程學院 成都 610225)(2.成都信息工程大學數(shù)據(jù)科學與工程研究所 成都 610225)(3.成都信息工程大學軟件自動生成與智能服務(wù)四川省重點實驗室 成都 610225)(4.四川大學華西醫(yī)院麻醉手術(shù)中心 成都 610044)
術(shù)中低血壓事件是手術(shù)中常發(fā)生的不良事件,有研究表明,術(shù)中低血壓事件的發(fā)生,會導(dǎo)致患者手術(shù)后其它不良并發(fā)癥事件(如急性腎損傷、心肌損傷等[1~2])的發(fā)生,甚至會導(dǎo)致患者的死亡[3~4]。在手術(shù)的過程中,提前5min~15min 預(yù)測低血壓事件,將為臨床醫(yī)生主動采取措施預(yù)防風險,進而改善術(shù)后患者的預(yù)后提供幫助[5]。
臨床上,患者的術(shù)中平均動脈壓(Mean Arterial Pressure,MAP)持續(xù)1min 以上低于65mmHg,則認定患者發(fā)生術(shù)中低血壓事件(如圖1所示)[2]。導(dǎo)致這一事件的發(fā)生因素眾多,僅根據(jù)臨床醫(yī)生在麻醉誘導(dǎo)前可用的變量進行預(yù)測是一項十分困難的任務(wù)[6]。因此,患者術(shù)中豐富的生理指標監(jiān)測數(shù)據(jù)常被作為特征用于術(shù)中低血壓事件的預(yù)測[7~9]。
圖2 多變量時間序列
圖3 時空信息分段融合模型
當前,術(shù)中低血壓事件的預(yù)測是研究熱點問題之一,通常采用有監(jiān)督學習方法,利用患者術(shù)中有限窗口范圍內(nèi)的多種生理指標監(jiān)測數(shù)據(jù)提取特征,將預(yù)測任務(wù)定義為在未來一段時間內(nèi)“是否”會發(fā)生術(shù)中低血壓事件的二分類任務(wù)實現(xiàn)。Hatib 等[5]基于患者術(shù)中監(jiān)測的高保真動脈壓波形數(shù)據(jù),提取波形中包含的幾何特征,將預(yù)測任務(wù)歸為二分類問題,實現(xiàn)術(shù)中低血壓事件的預(yù)測。Duggappa 等[7]利用患者術(shù)中監(jiān)測的多個指標數(shù)據(jù),采用二分類有監(jiān)督學習模型,驗證了灌注指數(shù)在術(shù)中低血壓事件預(yù)測任務(wù)上的有效性。
多變量邏輯回歸、隨機森林、支持向量機、樸素貝葉斯等統(tǒng)計機器學習模型被廣泛應(yīng)用于術(shù)中低血壓事件預(yù)測[6~7]。近年來,隨著深度學習在眾多領(lǐng)域的預(yù)測任務(wù)中被驗證能夠通過復(fù)雜的特征變換過程,獲得更優(yōu)秀的數(shù)據(jù)表證并應(yīng)用于預(yù)測。因此,Lee 等[8]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)引入術(shù)中低血壓預(yù)測任務(wù),提取動脈壓、心電圖、光電容積脈搏圖和血管照影等四種高清數(shù)據(jù)中蘊含的信號特征,通過回歸(預(yù)測血壓值)和分類(預(yù)測是否發(fā)生)來預(yù)測低血壓事件的發(fā)生,取得了良好的應(yīng)用效果。Chan等[9]利用長短期記憶(Long Short-Term Memory,LSTM)模型提取多變量特征在各時間點的觀測值的時間序列關(guān)聯(lián)信息,用于低血壓預(yù)測任務(wù)。CNN具有良好的局部變量間關(guān)聯(lián)特征的提取能力,但對特征的長時間序列依賴不敏感。相反地,LSTM 能夠有效建模變量觀測值的長時間序列依賴關(guān)系,但對于變量間的局部空間關(guān)聯(lián)特征不友好。
因此,本文為解決上述問題,將患者術(shù)中多種生理指標監(jiān)測數(shù)據(jù)聯(lián)合表征建模,以期形成融合了多變量時序觀測的“時間信息”(即單變量觀測值上下文依賴信息)和“空間信息”(即窗口范圍內(nèi)變量間的局部關(guān)聯(lián)信息)的數(shù)據(jù)表證,進而提升術(shù)中低血壓事件預(yù)測能力。
術(shù)中低血壓一直是醫(yī)學領(lǐng)域的研究熱點之一。Ghassemi等[10]基于Parzen正態(tài)模型、邏輯回歸和神經(jīng)網(wǎng)絡(luò)在內(nèi)的各種方法,使用患者的生命體征預(yù)測低血壓。Hatib 等[5]基于邏輯回歸方法,使用從動脈壓波形中提取3022 個單獨特征和2603125個組合特征進行術(shù)中低血壓預(yù)測。Cherifa 等[11]通過與臨床MIMIC II 數(shù)據(jù)庫匹配的高頻記錄來訓練機器學習算法,該算法能夠提前30min 識別急性低血壓。上述方法均使用了機器學習方法,但需要人工設(shè)計特征。
深度學習作為機器學習的子領(lǐng)域,因其可以自動學習和識別特征,有人將其用于術(shù)中低血壓預(yù)測。LSTM模型因能夠處理時間序列的長時間依賴問題,被廣泛用于術(shù)中低血壓預(yù)測。Jaffe等[12]使用rmsprop 和脫落正則化方法訓練的LSTM 模型被用于急性低血壓預(yù)測。但LSTM 只能學習到時間信息,忽略了局部空間信息。Lee 等[8]提出了基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)的術(shù)中低血壓預(yù)測模型,雖然能解決上述問題,但又忽略了時間信息。Wang等[13]證實了在時間序列分類中殘差網(wǎng)絡(luò)(Residual Network,ResNet)也表現(xiàn)出了較好的性能。借鑒Jaffe、Lee 和Wang 等的思想,本文提出了一種基于時空信息分段融合的術(shù)中低血壓預(yù)測方法,先使用FCN 或RES 提取多變量時間序列的局部空間信息,再使用門控循環(huán)單元(Gated Recurrent Units,GRU)學習時間信息并進行預(yù)測。
本文提出的兩個模型的空間層的結(jié)構(gòu)是不相同的,一個為FCN,而另一個為RES,但他們都是由卷積塊(Convolution Block)組成。其中每個卷積塊都包含三個操作:一維卷積、批標準化(Batch Normalization,BN)和修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)。FCN 詳細結(jié)構(gòu)圖如圖4(a)所示。
圖4 空間層架構(gòu)圖
為了使每一層的輸入分布更加相似,便于網(wǎng)絡(luò)可以專注學習類別之間的差異,輸入Fi使用BN對訓練數(shù)據(jù)進行標準化,得到批標準化輸出Bi:
最后,為了增加神經(jīng)網(wǎng)絡(luò)的非線性因素,輸入Bi使用ReLU 作為激活函數(shù)進行非線性操作,輸出結(jié)果為hi,但在經(jīng)過最后一個ReLU 輸出結(jié)果為:
本文使用三個GRU 來提取時間信息。詳細結(jié)構(gòu)圖如圖5所示。
圖5 時間層架構(gòu)圖
其中Wi、Wz、Wh、Ui、Uz、Uh表示為可訓練矩陣,br、bz、bh為偏置,?表示元素乘法。根據(jù)上述公式類推,最后一個GRU層的輸出為Etime。
本文使用的術(shù)中監(jiān)護數(shù)據(jù)由某三甲醫(yī)院提供,所有數(shù)據(jù)在使用時均已經(jīng)脫敏處理。本文共使用139 臺手術(shù)數(shù)據(jù),從56 個指標中刷選出11 個最常用的生理指標,指標包括有:有創(chuàng)收縮壓、有創(chuàng)舒張壓、有創(chuàng)平均動脈血壓、心率、脈搏、血氧飽和度、血流灌注指數(shù)、二氧化碳呼吸率、潮汐末二氧化碳、潮汐末氧氣和吸入氧氣均是1s 測量一次的數(shù)值數(shù)據(jù)。
通過滑動窗口的方法來生成訓練樣本,如圖6所示。將滑動窗口劃分成三個窗口:1)觀察窗口;2)間隙窗口;3)預(yù)測窗口。其中觀察窗口、間隙窗口和預(yù)測窗口的長度是固定的,在預(yù)測窗口中根據(jù)術(shù)中低血壓的定義為觀察窗口中的數(shù)據(jù)打上1或0的標簽,其中標簽1 代表發(fā)生低血壓,對應(yīng)的數(shù)據(jù)為正例樣本,標簽0 代表未發(fā)生低血壓的負例樣本。
圖6 滑動窗口
正負例樣本的滑動間隙設(shè)置相同則會造成數(shù)據(jù)的分布不平衡,如圖7所示,滑動間隙10s的正例樣本與10s、20s、40s和60s的負例樣本對比,負例樣本的滑動間隙越短,與正例樣本的比例就越高。所以在劃分時將正例和負例的滑動間隙分別設(shè)置為10s和60s,以確保正例樣本的比例相對較高。
圖7 正例樣本與不同間隔負例樣本比率圖
針對數(shù)據(jù)中存在的缺失值,我們參考了Fernandes 等[14]的方法和Yoon 等[15]的方法進行處理。Fernandes 等[14]使用一個特殊值(-1)對缺失數(shù)據(jù)進行填充和Yoon 等[15]使用MRNN(Multi-directional Recurrent Neural Networks)在醫(yī)學時間序列中對缺失值進行填補。在后續(xù)的文中,我們將用術(shù)語“原始數(shù)據(jù)”來指代使用特殊值填充的數(shù)據(jù),而用術(shù)語“填補數(shù)據(jù)”來指代經(jīng)過MRNN填補的數(shù)據(jù)。
模型訓練批量大小為16,訓練輪次為70。卷積核的數(shù)量為128,步長為1,大小為n×t,其中n表示卷積核的高度,設(shè)置為3,t表示卷積核的寬度,因輸入向量X→的維度為11,所以t設(shè)置為11。GRU 的隱藏單元數(shù)為128,dropout 設(shè)置為0.5。學習率初始值為0.001,使用了早停機制和學習率改變機制。通過檢測訓練集的損失值,當10 輪損失值的改變小于0.0001 時,降低學習率到當前值的85%,當20 輪損失值變化小于0.0001 時,則停止迭代。
所有實驗均使用5 折交叉驗證。將全部樣本通過5 折交叉驗證劃分成5 份,依次取其中4 份作為訓練數(shù)據(jù),剩余1份作為測試數(shù)據(jù),最終訓練出5個模型并得到5 份測試結(jié)果,評估模型性能時取5份結(jié)果的平均值、最小值和最大值(最小值和最大值的表示為(最小值-最大值))。
FCN、RES、GRU、LSTM、FCN-LSTM、RESLSTM 以及本文所提深度學習模型均使用Keras 框架搭建。
本文采用的評估指標包括NPV(negative predictive value,陰性預(yù)測值)、PPV(positive predictive value,陽性預(yù)測值)、Specificity(特異性)、Sensitivity(靈敏性)以及AUC,計算公式如下:
其中TP表示為被模型正確地預(yù)測為正例的樣本數(shù)量,F(xiàn)P表示為被模型錯誤地預(yù)測為正例的樣本數(shù)量,TN表示為被模型正確地預(yù)測為負例的樣本數(shù)量,F(xiàn)N表示為被模型錯誤地預(yù)測為負例的正例樣本數(shù)量。
4.4.1 原始數(shù)據(jù)對比
為了驗證本文所提模型在預(yù)測術(shù)中低血壓任務(wù)中的有效性,選擇了兩個機器學習模型邏輯回歸(Logistic Regression,LR)、支持向量機(Support Vector Machine,SVM)深度學習模型FCN、RES、LSTM、GRU、FCN-LSTM、RES-LSTM作為對比模型。
觀察表1,對比空間模型的FCN 和RES,其中RES的PPV 和特異性均高于FCN,這表明RES在剔除陽性樣本和識別真實陰性樣本方面表現(xiàn)出較高的準確性。然而,RES在排除真實陰性樣本和檢測真實陽性樣本方面可能存在的局限性,其NPV 和靈敏性相對較低。
表1 原始數(shù)據(jù)對比
觀察表1,對比時間模型的LSTM 和GRU,GRU的效果整體優(yōu)于LSTM,而且將空間模型和時間模型進行結(jié)合,RES_GRU和FCN_GRU的指標均高于或等于對應(yīng)的RES_LSTM 和FCN_LSTM 模型。這進一步說明在時空信息分段融合模型中,GRU 的效果要優(yōu)于LSTM。這是因為GRU 具有更強的記憶和更新能力,能夠更好地捕捉時序數(shù)據(jù)中的長期依賴關(guān)系,從而提高模型的性能。
因此,將表1 中LR、SVM、FCN、RES、GRU、RES_GRU 和FCN_GRU 進行對比可以發(fā)現(xiàn),RES_GRU 和FCN_GRU 在多數(shù)指標上都表現(xiàn)出優(yōu)于機器學習模型、空間模型和時間模型的性能。這是因為術(shù)中生理數(shù)據(jù)往往具有時序關(guān)系和空間分布信息。時間模型只能考慮時間維度的信息,空間模型只能考慮空間維度的信息。然而,時空信息分段融合模型能夠同時利用時間和空間的信息,綜合多個維度的特征,從而更全面地描述數(shù)據(jù)的特性。時空信息分段融合模型能夠捕捉時間和空間之間的相關(guān)性。術(shù)中生理指標的變化往往與時間相關(guān),而指標間的關(guān)系也可以反映不同時間之間的差異。時空信息分段融合模型能夠通過跨時空關(guān)聯(lián)更好地理解這種影響,并在分類任務(wù)中準確地考慮到這些關(guān)聯(lián)。
因此,通過融合時空信息,時空信息分段融合模型能夠更好地利用數(shù)據(jù)的時序和空間關(guān)系,提供更準確、全面的特征表示。這使得時空信息分段融合模型能夠更有效地解決具有時空相關(guān)性的分類任務(wù),并在術(shù)中低血壓預(yù)測任務(wù)中表現(xiàn)出更優(yōu)越的性能。
4.4.2 填補數(shù)據(jù)對比
為進一步驗證時空信息分段融合模型在術(shù)中低血壓的預(yù)測效果,本文還添加了原始數(shù)據(jù)和填補數(shù)據(jù)的對比,并根據(jù)原始數(shù)據(jù)對比中的分析,選擇了深度學習模型FCN、RES、GRU 作為對比模型,對比原始數(shù)據(jù)和經(jīng)過填充數(shù)據(jù)的效果。
觀察表2 發(fā)現(xiàn),使用填補后數(shù)據(jù)在空間模型或時間模型都存在指標下降的情況,例如FCN中靈敏性減少3%,RES 中特異性減少8.8%、GRU 中靈敏性減少11.6%。而在時空信息分段融合模型中,各項指標都有增加,這表明填充后的數(shù)據(jù)會引入新的特征或特征組合,這些特征對于單獨的空間模型或時間模型是不可見或難以捕捉的。而時空信息分段融合模型通過綜合考慮時間和空間的信息,能夠更全面地獲取新增加的數(shù)據(jù)信息。這樣的綜合特征表示可以幫助模型更好地區(qū)分不同類別之間的差異,提高分類性能。而且經(jīng)過填補后,模型能更輕易地捕捉時間和空間之間的相關(guān)性,通過綜合分析這兩個維度的信息,模型能夠更好地理解數(shù)據(jù)的整體模式和趨勢,從而提高分類效果。
表2 填補數(shù)據(jù)對比
此外,觀察表2可以發(fā)現(xiàn)各個模型在AUC的最小值和最大值范圍上的差異比原始數(shù)據(jù)大。這說明填補數(shù)據(jù)雖然接近真實值,但不可能完全準確地反映真實情況,因此會引入額外的噪聲。針對FCN、RES、GRU、FCN_GRU、RES_GRU 模型,它們的范圍差的增大值分別為3.8%、6.6%、11.1%、1.5%、5.7%。盡管RES_GRU 模型的增大值相對較大,但與RES 和GRU 模型相比,其增大值仍然小于他們。而FCN_GRU模型的增大值最小。這說明時空信息分段融合模型相對于其他模型表現(xiàn)出更好的魯棒性,能夠更穩(wěn)定地應(yīng)對噪聲和不確定性的影響,從而提高模型的可靠性和泛化能力。這些發(fā)現(xiàn)強調(diào)了魯棒性在時間序列數(shù)據(jù)分析中的重要性。魯棒性較強的模型能夠在填補數(shù)據(jù)等引入噪聲的情況下仍保持穩(wěn)定的性能。因此,時空信息分段融合模型較小的范圍差增大值顯示了它們相對于其他模型具有更好的魯棒性,這使得它們更適合在實際應(yīng)用中處理時間序列數(shù)據(jù)并做出可靠的預(yù)測。
本文提出了基于時空信息分段融合模型的低血壓預(yù)測方法,使用全卷積網(wǎng)絡(luò)或殘差網(wǎng)絡(luò)提取局部空間信息,再使用門控循環(huán)單元提取時間信息并進行預(yù)測。在臨床原始數(shù)據(jù)和填補數(shù)據(jù)中不僅表現(xiàn)出較好的性能,還表現(xiàn)出一定的良好魯棒性。但術(shù)中低血壓的發(fā)生不僅和患者術(shù)中的生理指標相關(guān),還與患者基本信息以及病史都存在關(guān)系。所以在后續(xù)的實驗中可以添加患者的術(shù)前數(shù)據(jù),與術(shù)中數(shù)據(jù)一起預(yù)測低血壓的發(fā)生。這樣做可以更全面地考慮患者的情況,進一步提高低血壓預(yù)測的準確性。