蔡 慧,羅佳偉
(1.四川大學(xué)數(shù)學(xué)學(xué)院,四川成都 610065;2.四川大學(xué)臨床醫(yī)學(xué)院,四川成都 610041)
隨著生物醫(yī)學(xué)和醫(yī)療保健的大數(shù)據(jù)增長(zhǎng)以及電子病歷記錄( EHR )數(shù)據(jù)的大量數(shù)字化,先進(jìn)醫(yī)療設(shè)備及醫(yī)療智能化等原因,使得電子病歷數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)趨勢(shì),對(duì)醫(yī)學(xué)大數(shù)據(jù)的準(zhǔn)確分析將有助于早期疾病檢測(cè).傳統(tǒng)的分析方法如回歸分析等確實(shí)十分有效,但隨著數(shù)據(jù)變得十分復(fù)雜,分析準(zhǔn)確性會(huì)降低.為了捕捉潛在復(fù)雜信息,提高準(zhǔn)確率,越來(lái)越多人選擇使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型, RNN的變體如LSTM和GRU預(yù)測(cè)效果絕佳,但模型需要特別苛刻的條件,如數(shù)據(jù)必須完整無(wú)缺失、時(shí)間步長(zhǎng)固定、且模型本身不捕獲時(shí)間信息等.在大數(shù)據(jù)時(shí)代,我們?cè)絹?lái)越追求模型的效率和實(shí)用性,不僅希望模型的準(zhǔn)確率盡可能高,模型收斂越快越好,同時(shí)也希望模型能夠直接處理帶有缺失的數(shù)據(jù).
本文首先是希望能夠找到一份最真實(shí)的電子病歷數(shù)據(jù),它滿足一般電子病歷的幾乎所有特征,數(shù)據(jù)規(guī)模大變量足夠多,有自然的缺失,觀察的次數(shù)盡可能多.其目的是希望選出的模型能夠處理足夠復(fù)雜的數(shù)據(jù),滿足模型的通用特點(diǎn).其次是希望在眾多的RNN推廣的模型中,或按照已有的推廣模型演變的變體中找到一個(gè)絕佳的模型,使得它能夠方便快捷準(zhǔn)確的處理復(fù)雜且?guī)в腥笔У拇髷?shù)據(jù).
循環(huán)神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱RNNs)較早出現(xiàn)在1982年[1],后經(jīng)過(guò)一系列改進(jìn)工作[2],應(yīng)用極為廣泛. RNN具有一些不錯(cuò)的屬性,例如強(qiáng)大的預(yù)測(cè)性能以及捕獲長(zhǎng)期時(shí)間依存關(guān)系和變長(zhǎng)觀測(cè)值的能力[3].通過(guò)使用循環(huán)連接,信息可以在這些網(wǎng)絡(luò)中循環(huán)任意長(zhǎng)時(shí)間并實(shí)現(xiàn)參數(shù)共享等.但與此同時(shí)也存在一些限制[4]:
(1)RNNs存在梯度消失或梯度爆炸的問(wèn)題;
(2)RNNs有時(shí)甚至不收斂.
長(zhǎng)短時(shí)間記憶單元(簡(jiǎn)稱LSTM)[5],是RNN的變體.它通過(guò)將門(mén)控函數(shù)納入其狀態(tài)動(dòng)態(tài)中來(lái)巧妙地解決梯度消失等問(wèn)題.在每個(gè)時(shí)間步中,LSTM維護(hù)一個(gè)隱藏的向量ht和一個(gè)負(fù)責(zé)控制狀態(tài)更新和輸出的記憶向量ct[6].與普通RNN相比,LSTM的收斂性更好;能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系,可以從多變量,變長(zhǎng)的時(shí)間序列觀測(cè)記錄中捕獲遠(yuǎn)距離依賴性.
2015年Lipton等人[5]使用長(zhǎng)短期記憶(LSTM)構(gòu)建了一個(gè)診斷模型,該模型可以有效捕獲具有不同長(zhǎng)度和遠(yuǎn)距離依賴性時(shí)間序列觀測(cè)值,而無(wú)法捕獲采樣間隔的不規(guī)則性.階段性長(zhǎng)短時(shí)間記憶單元模型Phased LSTM(P-LSTM)[7]是LSTM的變體,是在LSTM的基礎(chǔ)上添加了一個(gè)時(shí)間門(mén)kt,該門(mén)由具有頻率范圍的參數(shù)化振蕩控制,該頻率范圍僅在周期的一小部分期間產(chǎn)生存儲(chǔ)器單元的更新.Phased LSTM網(wǎng)絡(luò)實(shí)現(xiàn)了比常規(guī)LSTM更快的收斂.另外,在LSTM的基礎(chǔ)上,門(mén)控循環(huán)單元(GRU)[8]將LSTM中的內(nèi)部復(fù)雜的門(mén)控機(jī)制稍微做了一定的改變,簡(jiǎn)化了通道,簡(jiǎn)單地說(shuō)是把兩條通道合并成了一條通道,在諸多RNN的變體中比較受歡迎.
實(shí)際應(yīng)用中的多元時(shí)間序列數(shù)據(jù),特別是電子病歷的記錄存在各種缺失值.處理缺失的方法,例如平滑,插值[9]和樣條曲線[10],無(wú)法捕獲變量相關(guān)性,也可能無(wú)法捕獲復(fù)雜的模式來(lái)執(zhí)行插補(bǔ).最近,出現(xiàn)了一個(gè)名為GRU-D的模型[3],該模型通過(guò)使用衰減率將標(biāo)記觀察值缺失與否的向量和觀察時(shí)間間隔應(yīng)用于GRU的更新?tīng)顟B(tài)中,并希望找到內(nèi)部的規(guī)律.該模型不僅能夠填補(bǔ)缺失,還能利用缺失的模式來(lái)改善預(yù)測(cè)結(jié)果.在本文中,這種填補(bǔ)缺失的方法被運(yùn)用到了每一個(gè)LSTM的推廣模型中.
在這個(gè)部分中,主要描述了四種LSTM變體的預(yù)測(cè)模型,它們分別是GRU-D、LSTM-D、P'-LSTM-D和P'-GRU-D,其具體的介紹如下。
假設(shè)一個(gè)具有N個(gè)樣本的數(shù)據(jù)(本文中即N個(gè)病人),每一個(gè)樣本都具有D個(gè)變量,每個(gè)樣本的每一個(gè)變量具有Tn個(gè)時(shí)間點(diǎn)(n∈1,2,3,….,N),不同的樣本可以具有不同的時(shí)間長(zhǎng)度. n代表被采樣的第n個(gè)樣本,其中,第n個(gè)樣本的數(shù)據(jù)形式可以描述如下:
Xn=(x1,x2,…,xTn)T∈RTn×D、Mn=(m1,m2,…,mTn)T∈RTn×D、Sn=(s1,s2,…,sTn)∈RTn
其中,s=(s1,…,sTn) 表示第 n 個(gè)樣本的所有時(shí)間點(diǎn).
為了方便理解,下面列舉了一個(gè)具有3個(gè)樣本數(shù)(P1,P2,P3),兩個(gè)變量( x1,x2 )和七個(gè)時(shí)間點(diǎn)(s1,s2,…,s7)的數(shù)據(jù)例子如圖1所示:
其中(a)表示st和xt;(b)表示st和mt;(c)表示st和δt;這三個(gè)部分具有相通的數(shù)據(jù)結(jié)構(gòu),并且P1,P2,P3可以具有不同的時(shí)間點(diǎn),這里直觀的表現(xiàn)是表格可以不一樣長(zhǎng).需要注意的是,真實(shí)帶有缺失的數(shù)據(jù)xt在輸入模型之前,需要把缺失的地方用 0 填補(bǔ)占位,但最終要利用mt識(shí)別出真正缺失的數(shù)據(jù)并做填補(bǔ)處理.
在這節(jié)中,本文層層遞進(jìn)介紹從RNN到LSTM再到GRU,最后GRU推出GRU-D,另附上本文推出的LSTM-D神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型.
2.2.1 LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型 首先,從簡(jiǎn)單的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)開(kāi)始,它及其它的變體的網(wǎng)絡(luò)結(jié)構(gòu)和操作始終保持完全共享. 換句話說(shuō),所有RNN都具有重復(fù)單元鏈的形式,只是在不同的時(shí)間步長(zhǎng)更新權(quán)重.在最初的循環(huán)神經(jīng)網(wǎng)絡(luò)中,重復(fù)模塊的結(jié)構(gòu)都很簡(jiǎn)單,例如使用一個(gè)tanh層(如圖2(a)).
ht=tanh(Wxxt+Whht-1+b)
(1)
而標(biāo)準(zhǔn)的長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)(LSTM)[5],這是一種特殊的RNN,它使用門(mén)控機(jī)制和專(zhuān)用記憶單元,通過(guò)利用長(zhǎng)時(shí)間依賴性,可以更好地解決梯度消失或梯度爆炸問(wèn)題[13].在這項(xiàng)工作中,我們使用具有窺孔連接的版本[14],并且使用最受歡迎的LSTM架構(gòu)之一[12](如圖3(b)),這種結(jié)構(gòu)復(fù)雜許多.它的主要進(jìn)步是引入了兩個(gè)信息通道,上:存儲(chǔ)單元狀態(tài)通道;下:隱藏單元狀態(tài)通道,以及使用的各種門(mén)控機(jī)制.其定義的更新公式如下:
圖3 GRU-D、LSTM-D神經(jīng)網(wǎng)絡(luò)模塊結(jié)構(gòu)圖Fig.3 Structural Diagram of GRU-D,LSTM-D Neural Network Module
ft=σ(Wxfxt+Whfht-1+bf)
(2)
it=σ(Wxixt+Whiht-1+bi)
(3)
(4)
ot=σ(Wxoxt+Whoht-1+bo)
(5)
(6)
ht=0t⊙tanh(ct)
(7)
其中ft,it,ot分別代表在時(shí)間步長(zhǎng)t上的遺忘門(mén),輸入門(mén)和輸出門(mén).ct是細(xì)胞記憶狀態(tài)向量,而xt和ht分別代表輸入特征向量和隱藏層輸出向量.Whi,Whf,Wxi,Wxf,Who和Wxo是權(quán)重參數(shù).bi,bf,bc, 和bo是偏差參數(shù),sigmoid(σ) 和tanh是激活函數(shù).
2.2.2 GRU預(yù)測(cè)模型 門(mén)控循環(huán)單元(GRU)[8],如圖2(c)所示.和圖2(b)相比,它只有一個(gè)輸出,合并了一些通道,對(duì)LSTM中的門(mén)控單元做了一定的修改整合,它的參數(shù)比長(zhǎng)短時(shí)間記憶模型要少.加入偏差項(xiàng)后其定義的更新公式如下:
zt=σ(Wxzxt+Whzht-1+bz)
(8)
rt=σ(Wxrxt+Whrht-1+br)
(9)
(10)
(11)
其中zt和rt分別叫做更新門(mén)和重置門(mén),均通過(guò)上一個(gè)隱藏狀態(tài)ht-1和這一時(shí)刻的輸入xt以及學(xué)習(xí)所有模型的參數(shù)(W,U,b),并結(jié)合激活函數(shù)σ來(lái)獲取(見(jiàn)公式8和9).
2.2.3 GRU-D神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型 2018年車(chē)正平(Zhengping Che)等人[3]在GRU的基礎(chǔ)上拓展了模型,使得模型能夠直接處理存在缺失的數(shù)據(jù), 文中將這種模型簡(jiǎn)稱為GRU-D(其中重復(fù)模塊單元部分如圖3(a)所示),下面具體來(lái)介紹這個(gè)模型:
某些領(lǐng)域的數(shù)據(jù),尤其是在醫(yī)療保健領(lǐng)域,序列中缺失存在兩個(gè)重要屬性:(1)如果變量的最后一次觀察是在很久以前發(fā)生的,則該變量的值往往接近某個(gè)固定值;(2)如果輸入變量已經(jīng)缺失了一段時(shí)間,那么輸入變量的影響將隨著時(shí)間的流逝而逐漸消失.為了從根本上解決序列中缺失的問(wèn)題,他們?cè)谏窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)中引入衰減率,將缺失表達(dá)的兩種模式(觀察值缺失與否的標(biāo)記向量和時(shí)間間隔向量)嵌入到GRU的網(wǎng)絡(luò)結(jié)構(gòu)中,并使用反向傳播訓(xùn)練所有模型組件,希望捕獲到以上兩種特性,達(dá)到填補(bǔ)缺失的目的.
需要注意的是,電子病歷數(shù)據(jù)中的每個(gè)輸入變量在醫(yī)療應(yīng)用中都有其自身的含義和重要性,衰減率應(yīng)因變量而異.GRU-D模型根據(jù)數(shù)據(jù)本身存在的缺失狀況從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)衰減率,而不是先行固定.為了使每個(gè)衰減率保持在0到1的合理范圍內(nèi),選擇用指數(shù)負(fù)整流器,輸入變量xt衰減率γ定義如下:
γxt=exp{-max(0,Wγxδt+bγx)}
(12)
(13)
有時(shí),輸入衰減可能無(wú)法完全捕獲丟失的模式,因?yàn)椴⒎撬衼G失信息都可以用衰減的輸入值表示. 為了從缺失中獲取更多的信息,他們?cè)贕RU-D中還添加了一個(gè)隱藏狀態(tài)衰減率γh,這是有對(duì)GRU隱藏狀態(tài)衰減的作用,它在計(jì)算新的隱藏狀態(tài)ht之前,通過(guò)衰減先前的隱藏狀態(tài)ht-1來(lái)實(shí)現(xiàn).其中隱藏狀態(tài)衰減率γh的計(jì)算和輸入衰減率γx類(lèi)似,如下:
γht=exp{-max(0,Wγhδt+bγh)}
(14)
衰減隱藏狀態(tài)的中間變量公式為:
(15)
另外,將標(biāo)志向量直接輸入到GRU模型中,得到的GRU-D更新后的公式如下:
(16)
(17)
(18)
(19)
2.2.4 LSTM-D神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型 同理,本文把缺失模式下的數(shù)據(jù)應(yīng)用到LSTM中去,可以得到LSTM-D(其中重復(fù)模塊單元部分如圖3(b))模型,對(duì)xt的缺失填補(bǔ)方法與GRU-D一樣,也是需要連同神經(jīng)網(wǎng)絡(luò)內(nèi)部所有參數(shù)一起訓(xùn)練學(xué)習(xí)得到兩個(gè)衰減率γxt和γht,且每個(gè)變量在每個(gè)時(shí)刻的衰減率可能不同,具體詳情可以參考2.2.3小節(jié)的描述,這里就不再過(guò)多贅述了.LSTM-D最終的更新方程如下:
(20)
(21)
(22)
(23)
(24)
ht=0t⊙tanh(ct)
(25)
對(duì)比公式2-7可以發(fā)現(xiàn),以上公式和原始LSTM預(yù)測(cè)模型的公式變化可參照2.2.3小節(jié)中GRU-D與GRU的變化,這里不再做過(guò)多的介紹.
在這節(jié)中,我們主要從P-LSTM模型中替換時(shí)間門(mén)函數(shù)加入缺失模式后推導(dǎo)出P'-LSTM-D模型,在衍生出P'-GRU-D模型.
P-LSTM(階段性LSTM)神經(jīng)網(wǎng)絡(luò)模型[7], 即在LSTM基礎(chǔ)上添加了一個(gè)新的門(mén),叫“時(shí)間門(mén)kt”(如圖4(a)所示),這個(gè)門(mén)由具有一定頻率范圍的參數(shù)化振蕩控制,該頻率范圍僅在周期的一小部分期間產(chǎn)生存儲(chǔ)記憶信息的更新,簡(jiǎn)而言之,時(shí)間門(mén)就像一個(gè)篩選器,控制數(shù)據(jù)信息進(jìn)入模型訓(xùn)練的比例,只有當(dāng)這個(gè)時(shí)間門(mén)是開(kāi)放的階段,數(shù)據(jù)才參與訓(xùn)練并且存儲(chǔ)記憶信息.這個(gè)篩選的比例不是人為固定,而是通過(guò)分別學(xué)習(xí)kt中定義的幾個(gè)參數(shù)來(lái)確定.原模型中的kt定義如下:
圖4 P'-LSTM-D、P'-GRU-D神經(jīng)網(wǎng)絡(luò)模塊結(jié)構(gòu)圖Fig.4 Structural Diagram of P'-LSTM-D、P'-GRU-D Neural Network Module
(26)
其中,第一個(gè)參數(shù)τ控制振蕩的實(shí)時(shí)周期;第二個(gè)參數(shù)ron控制開(kāi)放時(shí)間的比例;第三個(gè)參數(shù)s控制振蕩的相移.φt是一個(gè)輔助變量,代表節(jié)奏周期內(nèi)的相位.kt分成三個(gè)階段,0到1、1到0和最后的不通過(guò)階段,這里的α通常設(shè)置為很小的數(shù),比如0.001等.
本文所用的時(shí)間門(mén)kt,更換為另一個(gè)更為簡(jiǎn)單的函數(shù)來(lái)代替,原理和思想和原文中的門(mén)一樣,同樣有三個(gè)參數(shù):
kt=max {0,Asin(ωt+c)}
(27)
其中,這里A、ω、c需要在訓(xùn)練過(guò)程中不斷學(xué)習(xí),需要注意的是,這里需要限制 |A|1 ,其中不同變量的參數(shù)可能不同,不同時(shí)間的參數(shù)也可能不同,數(shù)據(jù)只在開(kāi)放的階段才參與訓(xùn)練.再結(jié)合缺失處理,得到P'-LSTM-D 神經(jīng)網(wǎng)絡(luò)模型的更新公式如下,具體還可以參考[11].
(28)
(29)
(30)
(31)
(32)
(33)
(34)
同理,也可以得出類(lèi)似的 P'-GRU-D 的更新公式:
(35)
(36)
(37)
(38)
這里公式35-37與2.2.3 小節(jié)中GRU-D神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型中公式16-19表達(dá)含義相同,唯一不同的是加入了P'-LSTM-D定義中的時(shí)間門(mén)kt,其作用與之前描述相同.
(39)
w代表在輸出時(shí)t時(shí)刻的權(quán)重參數(shù),by是偏差參數(shù),hnt是前幾節(jié)中隱藏狀態(tài)的輸出ht,這里的n僅注明是表示第n個(gè)病人的ht. 目標(biāo)是想要使得下面的損失函數(shù)到達(dá)最?。?/p>
(40)
在本文中,使用5個(gè)評(píng)價(jià)模型預(yù)測(cè)效果的指標(biāo),二分類(lèi)問(wèn)題中引入混淆矩陣,可參考維基百科上及參考文獻(xiàn)[15]的解釋?zhuān)鼈兎謩e是:召回率(recall);精度(precision);準(zhǔn)確度(accuracy);F1分?jǐn)?shù)(F1-measure);AUC (AUROC).
其中,AUC是ROC(受試者工作特征曲)曲線下的面積,常常用來(lái)評(píng)價(jià)二分類(lèi)問(wèn)題的優(yōu)劣,本文主要看這個(gè)綜合指標(biāo).
在這項(xiàng)工作中,患有充血性心力衰竭(CHF)的患者的數(shù)據(jù)來(lái)自由美國(guó)麻省理工學(xué)院計(jì)算生理學(xué)研究室以及貝斯以色列迪康醫(yī)學(xué)中心和飛利浦醫(yī)療共同構(gòu)建的重癥監(jiān)護(hù)醫(yī)學(xué)數(shù)據(jù)庫(kù)(MIMIC-III,v1.4)[16]. MIMIC-III包含2001年至2012年在波士頓貝斯以色列迪康醫(yī)學(xué)中心接受診治的40 000多名患者的電子病歷記錄數(shù)據(jù).MIMIC-III包含高分辨率數(shù)據(jù),包括帶有時(shí)間戳的生命體征,實(shí)驗(yàn)室值 ,治療指標(biāo)等.其中,貝斯以色列迪康醫(yī)學(xué)中心和麻省理工學(xué)院的機(jī)構(gòu)審查委員會(huì)批準(zhǔn)了MIMIC數(shù)據(jù)庫(kù)的創(chuàng)建和使用.
圖5為從數(shù)據(jù)庫(kù)中初步篩選病人的過(guò)程圖,需要注意的是,本文僅納入患有充血性心力衰竭且進(jìn)入ICU的成年病人,最終納入了10 315名病人數(shù)據(jù).
其中,表1為描述病人的基本情況:
數(shù)據(jù)庫(kù)中針對(duì)充血性心力衰竭病人所記錄的變量超過(guò)2 000個(gè),本文做了一個(gè)排序處理,剔除數(shù)據(jù)規(guī)模不大的變量,先保留每個(gè)變量至少大于10萬(wàn)條數(shù)據(jù)的標(biāo)準(zhǔn),這樣做的目的是當(dāng)轉(zhuǎn)換成模型能夠識(shí)別的數(shù)據(jù)框架時(shí),缺失較大的變量能夠被過(guò)濾掉,這樣填補(bǔ)的數(shù)據(jù)比較少一點(diǎn),從而保證數(shù)據(jù)的質(zhì)量盡可能真實(shí).
數(shù)據(jù)庫(kù)中單獨(dú)標(biāo)記的變量通常對(duì)病人十分重要,針對(duì)充血性心力衰竭病人,MIMIC III數(shù)據(jù)庫(kù)中記錄的標(biāo)記變量中,記錄特別完善的四個(gè)變量分別是:中心靜脈壓(CVP);動(dòng)脈收縮壓(ABPs);呼吸頻率(RR);心率(HR).這四個(gè)變量不僅完整的記錄著真實(shí)值,還記錄著該變量是處于正常或是異常的狀態(tài).由于前兩個(gè)變量都與血壓有關(guān),后兩個(gè)變量均與呼吸有關(guān),本文最終鎖定對(duì)充血性心力衰竭病人影響較為敏感的兩個(gè)結(jié)局,分別是呼吸頻率(RR)和中心靜脈壓(CVP)作為臨床終點(diǎn).根據(jù)實(shí)際數(shù)據(jù)情況納入與臨床終點(diǎn)相關(guān)性最大的變量如下:
(1)針對(duì)呼吸頻率(RR)是否正常作為臨床終點(diǎn)參與訓(xùn)練的自變量有26個(gè):動(dòng)脈血壓均值、中心靜脈壓、GCS評(píng)分、心率、吸入氣溫度、呼吸暫停時(shí)間間隔、無(wú)創(chuàng)血壓均值、肺動(dòng)脈收縮壓、(呼吸機(jī))吸氣壓力、先前體重、血氧飽和度、體溫(C)、血糖、血紅蛋白、凝血激活酶時(shí)間、血小板計(jì)數(shù)、白血細(xì)胞、肺動(dòng)脈壓警報(bào)、動(dòng)脈舒張壓、肺動(dòng)脈舒張壓、平均血紅蛋白、紅細(xì)胞分布寬度、FiO2、氣道壓力、動(dòng)脈收縮壓、無(wú)創(chuàng)血壓收縮壓;
(2)針對(duì)中心靜脈壓(CVP)正常與否作為臨床終點(diǎn)參與訓(xùn)練的自變量有31個(gè): 無(wú)創(chuàng)血壓收縮壓、動(dòng)脈收縮壓、氣道壓力、FiO2、氧分壓、紅細(xì)胞分布寬度、平均血紅蛋白、尿素氮、肺動(dòng)脈舒張壓、無(wú)創(chuàng)血壓舒張壓、動(dòng)脈舒張壓、肺動(dòng)脈壓警報(bào)、白血細(xì)胞、血小板計(jì)數(shù)、凝血激活酶時(shí)間、血細(xì)胞比容、肌酐、動(dòng)脈CO2、潮氣量、體溫(C)、呼吸頻率、先前體重、(呼吸機(jī))吸氣壓力、肺動(dòng)脈收縮壓、無(wú)創(chuàng)血壓均值、分鐘量(每分鐘肺呼出氣體量)、吸入氣溫度、心率、GCS評(píng)分、動(dòng)脈血壓均值、呼吸暫停時(shí)間間隔.
這里需要做一次時(shí)間點(diǎn)的篩選,將采取四舍五入的方式將周?chē)c(diǎn)均聚集到整點(diǎn)上,即我們最終呈現(xiàn)的數(shù)據(jù)都是以整點(diǎn)小時(shí)為單位,另外臨床終點(diǎn)不能有任何缺失,簡(jiǎn)言之是需要以臨床終點(diǎn)數(shù)據(jù)y的時(shí)間點(diǎn)作為標(biāo)準(zhǔn),抽取其余與y相對(duì)應(yīng)的時(shí)間點(diǎn),多余時(shí)間點(diǎn)需舍去.
在能夠處理缺失的情況下,本文主要關(guān)注神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的效果以及模型的收斂速度這兩個(gè)重要指標(biāo).為了使模型具有可比性,本文中有意改變兩個(gè)變量:(1)模型類(lèi)型;(2)時(shí)間序列長(zhǎng)度,即模型納入的時(shí)間點(diǎn)總數(shù).
除此之外,本文盡可能保持其他設(shè)置參數(shù)相同,如:把大小(batch size),即一次訓(xùn)練的樣本數(shù)目固定為100;將時(shí)期(epochs)設(shè)置成100,其中一個(gè)時(shí)期代表所有訓(xùn)練樣本的一個(gè)正向傳遞和一個(gè)反向傳遞;學(xué)習(xí)率(lr)固定為0.001;隱藏層固定為100等.具體的結(jié)果及結(jié)論如下:
圖6中記錄著以呼吸頻率作為臨床終點(diǎn)的模型表現(xiàn)效果,這里指AUC的值.從圖6的結(jié)果可以看出,LSTM-D和GRU-D的表現(xiàn)效果極佳,平均AUC能達(dá)到0.96,并且隨著時(shí)間序列長(zhǎng)度的改變,表現(xiàn)效果改變不大,且LSTM-D和GRU-D表現(xiàn)不相上下.相比而言,P'-LSTM-D和P'-GRU-D的效果稍顯劣勢(shì),平均AUC在0.86左右,所有病人的時(shí)間點(diǎn)超過(guò)60個(gè)后,由于服務(wù)器內(nèi)存限制,模型無(wú)法完成訓(xùn)練,且隨著納入的時(shí)間點(diǎn)越多,表現(xiàn)效果越差.
為了再次驗(yàn)證隨著時(shí)間序列長(zhǎng)度的改變,LSTM-D和GRU-D的表現(xiàn)效果會(huì)不會(huì)出現(xiàn)較大的改變,故以CVP為臨床終點(diǎn)訓(xùn)練,驗(yàn)證集上的測(cè)試結(jié)果如圖7所示,隨著時(shí)間序列長(zhǎng)度的改變,LSTM-D和GRU-D的表現(xiàn)效果也不相上下.
模型的收斂速度情況,可以從圖8結(jié)果中得知,在收斂速度這個(gè)指標(biāo)上,GRU-D表現(xiàn)最佳,LSTM-D其次,而P'-LSTM-D和P'-GRU-D出人意料收斂較慢,或許是因?yàn)镻'-LSTM-D和P'-GRU-D的模型參數(shù)太多.
為了考查所得到的GRU-D和LSTM-D收斂規(guī)律是不是偶然,本文再次查看以CVP為臨床終點(diǎn)的模型收斂速度,圖9結(jié)果亦表明,在GRU-D和LSTM-D表現(xiàn)效果相當(dāng)?shù)那闆r下,GRU-D的收斂速度要快一些.故從四個(gè)模型比較結(jié)果來(lái)看,GRU-D模型更勝一籌,LSTM-D也很不錯(cuò),只是收斂速度稍微較GRU-D慢一點(diǎn).
下面是以呼吸頻率為臨床終點(diǎn)的具體效果圖:
圖12 納入100個(gè)時(shí)間點(diǎn)時(shí)驗(yàn)證表現(xiàn)效果圖Fig.12 Verified Performance Rendering with 100 Time Points
從以上結(jié)果可以很明顯的了解到模型的整體效果,這里僅展現(xiàn)納入時(shí)間點(diǎn)為10、30和100的效果圖,分別如圖10-12所示,所有的模型針對(duì)我們充血性心力衰竭病人的數(shù)據(jù)實(shí)驗(yàn)上看,均出現(xiàn)GRU-D和LSTM-D神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型效果很好,P'-LSTM-D和P'-GRU-D神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型表現(xiàn)較差.
本文建議,數(shù)據(jù)長(zhǎng)度不是很長(zhǎng)的數(shù)據(jù),可直接使用GRU-D和LSTM-D神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型其中任何一個(gè),它們不僅可以直接處理缺失,而且表現(xiàn)效果都極佳,在另一方面它們能夠處理不等距的數(shù)據(jù),捕獲時(shí)間信息.