羅曉輝 周瑞豪 張偉義 舒紅平 王亞強(qiáng) 郝學(xué)超
(1.成都信息工程大學(xué)軟件工程學(xué)院 成都 610225)(2.成都信息工程大學(xué)數(shù)據(jù)科學(xué)與工程研究所 成都 610225)(3.成都信息工程大學(xué)軟件自動生成與智能服務(wù)實(shí)驗(yàn)室 成都 610225)(4.四川大學(xué)華西醫(yī)院麻醉手術(shù)中心 成都 610044)
在手術(shù)前對患者進(jìn)行系統(tǒng)的、全面的信息收集以及身體檢查形成的結(jié)構(gòu)化術(shù)前數(shù)據(jù)十分重要。這份術(shù)前數(shù)據(jù)可以幫助醫(yī)生了解患者的健康情況,評估手術(shù)風(fēng)險(xiǎn),制定合適的麻醉計(jì)劃,同時預(yù)防術(shù)中以及術(shù)后可能出現(xiàn)的潛在風(fēng)險(xiǎn)。
近年來,結(jié)合結(jié)構(gòu)化的術(shù)前數(shù)據(jù)和機(jī)器學(xué)習(xí),用于預(yù)測術(shù)后風(fēng)險(xiǎn)已經(jīng)成為醫(yī)學(xué)領(lǐng)域的重要趨勢。Thottakkara 等[1]使用邏輯回歸、樸素貝葉斯和支持向量機(jī)用于預(yù)測術(shù)后膿毒癥和急性腎損傷的發(fā)病情況。Grsbeck 等[2]使用機(jī)器學(xué)習(xí)預(yù)測吸煙者的術(shù)后并發(fā)癥發(fā)生率。Yu 等[3]使用邏輯回歸識別進(jìn)行婦科手術(shù)后,術(shù)后疼痛的高危患者。
為了更好地應(yīng)對術(shù)后風(fēng)險(xiǎn)預(yù)測的挑戰(zhàn),專家和研究人員意識到多中心數(shù)據(jù)共享的重要性。通過采用基于多中心數(shù)據(jù)的模型訓(xùn)練方法,可以從更廣泛和多樣化的數(shù)據(jù)中學(xué)習(xí),從而使模型更好地適應(yīng)不同的患者群體和臨床場景,提高模型的泛化能力。Getachew 等[4]使用多中心數(shù)據(jù)研究術(shù)前疼痛與術(shù)后疼痛以及手術(shù)時間的關(guān)系。Peter 等[5]使用多中心數(shù)據(jù)減少了成人脊柱畸形矯正手術(shù)的ICU入院率。
然而,術(shù)前檢測數(shù)據(jù)包含大量敏感的個人醫(yī)療信息,共享這些原始數(shù)據(jù)可能會暴露隱私,單純進(jìn)行數(shù)據(jù)匿名化也存在隱私暴露風(fēng)險(xiǎn)[6]。同時,用于預(yù)測術(shù)后風(fēng)險(xiǎn)的術(shù)前結(jié)構(gòu)化數(shù)據(jù)存在類別不平衡問題[7]。這兩個問題限制了術(shù)前數(shù)據(jù)的共享以及術(shù)后風(fēng)險(xiǎn)預(yù)測模型的效果。
因此,針對以上問題,本文使用CTGAN[8]為基礎(chǔ)模型,對其進(jìn)行改進(jìn),添加分類器,使模型更適應(yīng)于下游任務(wù),本文將提出的模型稱為ACCTGAN。我們使用該模型生成與原始數(shù)據(jù)高度相似的數(shù)據(jù),使用生成比原始數(shù)據(jù)量更大規(guī)模的數(shù)據(jù),訓(xùn)練下游任務(wù)分類器,以達(dá)到數(shù)據(jù)增強(qiáng)的效果,并且達(dá)到平衡數(shù)據(jù)類別的目的,以此方式提升下游模型預(yù)測性能。且生成數(shù)據(jù)可通過生成符合真實(shí)數(shù)據(jù)概率分布并且從未出現(xiàn)在真實(shí)數(shù)據(jù)里的假數(shù)據(jù),用于數(shù)據(jù)共享。為預(yù)測術(shù)后并發(fā)癥數(shù)據(jù)的類別不平衡問題以及數(shù)據(jù)共享的問題提出解決方案,主要貢獻(xiàn)包括以下幾個方面:
針對術(shù)后風(fēng)險(xiǎn)預(yù)測問題,本文使用新的GAN網(wǎng)絡(luò),它引入了一個分類器,提供了額外的監(jiān)督,以提高生成數(shù)據(jù)在下游任務(wù)中的效果。
在不平衡數(shù)據(jù)集上,使用大量的生成數(shù)據(jù)增加少數(shù)類樣本。使用生成數(shù)據(jù)訓(xùn)練的分類器與基線相比,下游任務(wù)分類器效果有顯著提高。
使用生成模型生成與真實(shí)數(shù)據(jù)相似的生成數(shù)據(jù),使用高質(zhì)量的生成數(shù)據(jù)解決數(shù)據(jù)共享問題。
實(shí)驗(yàn)結(jié)果表明,在術(shù)后并發(fā)癥預(yù)測任務(wù)中,通過使用GAN 模型生成的數(shù)據(jù),使預(yù)測效果有明顯提升,且生成數(shù)據(jù)在特征列的統(tǒng)計(jì)分布情況和列與列的相關(guān)性上與真實(shí)數(shù)據(jù)高度相似,最后通過隱私暴露風(fēng)險(xiǎn)實(shí)驗(yàn)證明這些生成數(shù)據(jù)可用于學(xué)術(shù)研究下的數(shù)據(jù)共享。
生成對抗網(wǎng)絡(luò)(GAN)[9]是近年來發(fā)展起來的一種生成模型,通常用于生成圖像或文本。該模型基于一個生成器和一個判別器,它們的學(xué)習(xí)過程采用了一種零和極小極大游戲的方式。
在表格類型的生成對抗網(wǎng)絡(luò)研究中,一些方法基于原始的GAN 模型,并針對特定的應(yīng)用進(jìn)行改進(jìn)。Yahi 等[10]使用GAN 生成連續(xù)時間序列病歷,他們通過生成對抗網(wǎng)絡(luò)模擬真實(shí)病例數(shù)據(jù)的分布,從而生成具有連續(xù)性的時間序列數(shù)據(jù)。MedGAN[11]結(jié)合了自動編碼器和GAN 的思想。它能夠生成既包含連續(xù)變量又包含離散變量的醫(yī)療數(shù)據(jù),并且已經(jīng)在電子病歷數(shù)據(jù)的生成任務(wù)中得到應(yīng)用。Table-GAN[12]也試圖解決表格類型數(shù)據(jù)集的生成問題,它在GAN 框架中引入了信息丟失和分類器,它的生成器、判別器和分類器都是用的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。CrGAN-Cnet[13]使用GAN進(jìn)行航空旅客姓名記錄的生成,除了生成連續(xù)和離散類型的數(shù)據(jù)外,CrGAN-Cnet還可以處理表中的缺失值。
由于使用原始的GAN 控制生成數(shù)據(jù)的局限性,條件GAN 被越來越多地使用,它的條件向量可以用來指定生成某一類數(shù)據(jù)。當(dāng)可用數(shù)據(jù)有限且高度不平衡,并且需要特定類別的合成數(shù)據(jù)來重新平衡分布時,此功能非常重要。CW-GAN[14]是一種將Wasserstein 距離[15]應(yīng)用到條件GAN 框架中的模型,它利用條件向量對少數(shù)類進(jìn)行過采樣,以解決表格數(shù)據(jù)生成不平衡的問題。CTGAN[8]在判別器中集成PacGAN[16]結(jié)構(gòu),使用WGAN 損耗加梯度懲罰[17]訓(xùn)練條件GAN 框架。它還采用了一種采樣訓(xùn)練策略,利用條件向量來處理分類變量的不平衡問題。DRL-GAN[18]使用生成對抗網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合,用于提升檢測網(wǎng)絡(luò)攻擊的準(zhǔn)確率。Hindistan等[19]使用GAN 與差分隱私來保護(hù)工業(yè)物聯(lián)網(wǎng)操作中的敏感數(shù)據(jù)。這些方法的出現(xiàn)提高了生成數(shù)據(jù)的質(zhì)量,豐富了生成對抗網(wǎng)絡(luò)的應(yīng)用領(lǐng)域,并針對特定問題提供了更好的解決方案。本文基于生成對抗網(wǎng)絡(luò),旨在對術(shù)后風(fēng)險(xiǎn)預(yù)測的數(shù)據(jù)進(jìn)行建模和生成。通過訓(xùn)練模型,可以生成與原始數(shù)據(jù)具有相似特征和分布的生成數(shù)據(jù)。生成的數(shù)據(jù)可以用于改進(jìn)下游任務(wù)的效果,并且可以用于數(shù)據(jù)共享的目的。
術(shù)后風(fēng)險(xiǎn)預(yù)測是醫(yī)學(xué)領(lǐng)域中的一個重要研究方向,已經(jīng)吸引了廣泛的學(xué)術(shù)和臨床關(guān)注。目前主要聚焦于優(yōu)化機(jī)器學(xué)習(xí)模型,提升在該領(lǐng)域的實(shí)際應(yīng)用效果。Hill 等[20]采用機(jī)器學(xué)習(xí)模型,將美國麻醉醫(yī)師協(xié)會身體狀況特征與術(shù)前特征結(jié)合,提升術(shù)后死亡風(fēng)險(xiǎn)的預(yù)測性能。Chiew 等[21]使用隨機(jī)森林、自適應(yīng)增強(qiáng)、梯度增強(qiáng)和支持向量機(jī)對候選模型進(jìn)行訓(xùn)練,用于預(yù)測ICU 入室等風(fēng)險(xiǎn)。Fritz[7]使用了一個多路徑卷積神經(jīng)網(wǎng)絡(luò)模型,結(jié)合多種數(shù)據(jù)來預(yù)測術(shù)后死亡風(fēng)險(xiǎn)。這些工作都是在下游任務(wù)上訓(xùn)練更好的分類模型,提升術(shù)后并發(fā)癥的預(yù)測效果。暫無有人從數(shù)據(jù)端出發(fā),提升模型的預(yù)測效果。
我們將真實(shí)的結(jié)構(gòu)化術(shù)前數(shù)據(jù)定義為Ddata={(X,Y)},其中X={X1,X2,…,Xm}為表格類型數(shù)據(jù),其中Xm?Rn,即總共有m 個樣本,每個樣本有n 個特征,在標(biāo)簽上,Y={Y1,Y2,…,Ym},其中Ym?R2,它們構(gòu)成標(biāo)簽集,在本文中標(biāo)簽為術(shù)后風(fēng)險(xiǎn)的發(fā)生情況,用1 和0 來標(biāo)識術(shù)后并發(fā)癥的發(fā)生與未發(fā)生。這些變量遵循一個未知的聯(lián)合分布,每一行都是聯(lián)合分布的一個樣本,每一行都是獨(dú)立采樣的,即我們不需要考慮每一行的順序。我們的目標(biāo)是得到一個生成模型,該模型有三部分,生成器、判別器和分類器,我們將生成器表示為G,判別器表示為D,分類器表示為C。通過訓(xùn)練使該生成模型生成的表格T 達(dá)到以下標(biāo)準(zhǔn),首先,把T 用于訓(xùn)練分類模型,并在真實(shí)的測試集上達(dá)到與真實(shí)訓(xùn)練集類似甚至更好的效果,其次,生成表格T 與原始數(shù)據(jù)集擁有類似的統(tǒng)計(jì)分布。
GAN 模型由兩個神經(jīng)網(wǎng)絡(luò)組成:生成器和判別器。我們的基礎(chǔ)模型CTGAN[8]也是如此。我們的模型ACCTGAN 采用了CTGAN[8]原始的架構(gòu),但有一個額外的神經(jīng)網(wǎng)絡(luò),稱為分類器,每個結(jié)構(gòu)的功能介紹如下:
1)生成器產(chǎn)生與真實(shí)記錄具有相同分布的生成數(shù)據(jù)樣本,且生成樣本要足夠真實(shí)能夠欺騙判別器。
2)判別器用于區(qū)分真實(shí)的數(shù)據(jù)和生成樣本。
3)分類器用于預(yù)測生成記錄的標(biāo)簽。在訓(xùn)練生成器的過程中,添加一個分類器可以維護(hù)生成記錄中值的一致性,這個在本節(jié)的后文中有詳細(xì)介紹。
ACCTGAN的生成器和判別器的結(jié)構(gòu)以及條件向量的生成方式都與CTGAN[8]中一致。
ACCTGAN 中的分類器的隱藏層使用了3 層全連接網(wǎng)絡(luò),每層有256 個神經(jīng)元,每層的激活函數(shù)都用的是Leaky ReLU,并且使用了dropout 防止分類器過擬合。這個分類器是根據(jù)原始表中的真實(shí)標(biāo)簽來訓(xùn)練的,可以學(xué)習(xí)標(biāo)簽和特征之間的關(guān)系。當(dāng)給定一條生成的記錄時,分類器可以判斷該記錄在特征與標(biāo)簽上的關(guān)系是否正確。若分類器檢測錯誤,可為生成器提供反饋,可以幫助生成器生成更準(zhǔn)確、更真實(shí)的生成數(shù)據(jù),這樣可以提高生成數(shù)據(jù)的質(zhì)量和可信度。
事實(shí)上,判別器本身也可以在某種程度上學(xué)習(xí)特征與標(biāo)簽之間的關(guān)系。關(guān)系不正確的生成樣本可能不會被判別器分類為真實(shí)的。然而,判別器的主要任務(wù)并非考慮特征與標(biāo)簽之間的關(guān)系,因此我們在基礎(chǔ)的GAN 模型中添加分類器,使生成器能更好的學(xué)習(xí)特征與標(biāo)簽之間的關(guān)系。本文模型的整體結(jié)構(gòu)如圖1所示,其中FCN表示全連接層(Fully connected network,F(xiàn)CN),BN 表 示 批 標(biāo) 準(zhǔn) 化(Batch Normalization,BN)。
圖1 ACCTGAN模型基礎(chǔ)架構(gòu)
在判別器和生成器部分,我們使用原始CTGAN 的損失函數(shù),并將它們表示為它們分別用來衡量判別器和生成器的性能和指導(dǎo)它們參數(shù)的更新。在分類器上,它的損失函數(shù)如式(1)所示:
ACCTGAN的分類器使用二分類交叉熵?fù)p失函數(shù),其中k是每輪訓(xùn)練的樣本數(shù),yi是第i個樣本的所屬類別,pi是分類器對每個標(biāo)簽的預(yù)測概率,取值范圍為0~1。在訓(xùn)練過程中,分類器有兩次輸入,分別輸入真實(shí)數(shù)據(jù)和生成數(shù)據(jù),先輸入真實(shí)數(shù)據(jù),學(xué)習(xí)真實(shí)數(shù)據(jù)中特征與類別之間的關(guān)系,再將學(xué)習(xí)到的關(guān)系應(yīng)用在生成數(shù)據(jù)中,分析生成數(shù)據(jù)是否有不合理的關(guān)系,之后再更新生成器的參數(shù),因此,分類器損失函數(shù)在輸入真實(shí)數(shù)據(jù)時定義為,這表示使用該損失函數(shù)評估分類器,優(yōu)化分類器模型,在輸入生成數(shù)據(jù)時為,這表示使用它更新生成器參數(shù),優(yōu)化生成器。
我們通過一個例子來詳細(xì)的解釋分類器如何幫助生成器學(xué)習(xí)特征與標(biāo)簽之間的關(guān)系。如圖2所示,在一次訓(xùn)練中,先將條件向量與噪聲向量輸入生成器,讓生成器生成樣本,然后通過條件向量選出對應(yīng)的真實(shí)數(shù)據(jù),之后先將真實(shí)數(shù)據(jù)的特征輸入分類器,使用損失函數(shù)對分類器預(yù)測的結(jié)果進(jìn)行評估,使用Adam 更新分類器參數(shù)。然后將生成器生成樣本的特征輸入分類器,可以注意到圖2中,生成器生成的樣本中手術(shù)部位為皮膚,ICU 入室標(biāo)簽為真,但真實(shí)數(shù)據(jù)集中沒有這樣的數(shù)據(jù),這就與分類器從真實(shí)數(shù)據(jù)中學(xué)到的特征與標(biāo)簽之間的關(guān)系不符,這樣損失函數(shù)L的值就會比較大,較大的損失函數(shù)值通常會導(dǎo)致更大的梯度,這將影響模型參數(shù)的更新幅度,以幫助模型更快地向著更優(yōu)的參數(shù)方向移動。這樣使用Adam 優(yōu)化器根據(jù)更新生成器參數(shù)時,可使生成器更快地學(xué)習(xí)特征與標(biāo)簽之間的關(guān)系。
圖2 ACCTGAN模型部分訓(xùn)練過程
建立術(shù)后并發(fā)癥數(shù)據(jù)的生成模型,需要使用大量的數(shù)據(jù)來訓(xùn)練模型。我們使用的是某三甲醫(yī)院手術(shù)麻醉管理系統(tǒng)中的數(shù)據(jù)來構(gòu)建模型。該數(shù)據(jù)集包含患者的基本身體狀況信息和實(shí)驗(yàn)室檢查數(shù)據(jù),并且對這份原數(shù)據(jù)本文采取以下處理。
1)刪除了病人的身份信息、手術(shù)開始日期和手術(shù)編號等信息,以保護(hù)患者隱私。
2)選擇了與術(shù)后并發(fā)癥相關(guān)的特征,并且僅保留這些特征用于建立生成模型。這些特征的選擇是基于醫(yī)學(xué)先驗(yàn)知識和經(jīng)驗(yàn)進(jìn)行的,以確保訓(xùn)練下游分類任務(wù)時分類模型具有較高的預(yù)測性能和準(zhǔn)確性。
最后得到兩個術(shù)后并發(fā)癥預(yù)測任務(wù)數(shù)據(jù)集,包含了三種術(shù)后并發(fā)癥的標(biāo)簽。第一個數(shù)據(jù)集有17356 個樣本,兩種標(biāo)簽,分別是肺部并發(fā)癥和心血管不良,第二個數(shù)據(jù)集有12240 個樣本,1 種標(biāo)簽,標(biāo)簽為ICU 入室風(fēng)險(xiǎn),這些標(biāo)簽的陽性率分別是14.05%、6.16%和2.74%,如圖3所示。
本次研究的主要目的是驗(yàn)證ACCTGAN 是否能夠有效捕獲數(shù)據(jù)集中的特征分布,并且生成的數(shù)據(jù)是否能夠直接用于訓(xùn)練模型,訓(xùn)練模型的實(shí)驗(yàn)在Ubuntu 18.04 系統(tǒng)上運(yùn)行,機(jī)器的CPU 為Intel(R)Xeon(R)Silver 4210R CPU @ 2.40GHz,顯 卡 為RTX 3090。此外,我們希望通過增加生成數(shù)據(jù)的數(shù)量來增強(qiáng)下游任務(wù)中的分類模型的性能,以此達(dá)到數(shù)據(jù)增強(qiáng)的效果。
為了達(dá)成目標(biāo),我們使用了以下幾種方式分別驗(yàn)證生成數(shù)據(jù)集在下游任務(wù)中的有效性,生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的統(tǒng)計(jì)相似性,以及生成數(shù)據(jù)的隱私暴露風(fēng)險(xiǎn)。
5.2.1 機(jī)器學(xué)習(xí)效用
機(jī)器學(xué)習(xí)效用(ML utility)是指將原始數(shù)據(jù)分為7∶3 的訓(xùn)練集與測試集,使用訓(xùn)練集訓(xùn)練一個GAN 模型和訓(xùn)練下游任務(wù)分類器,將GAN 用于生成數(shù)據(jù),再用GAN 模型生成的數(shù)據(jù)訓(xùn)練另一組分類器,之后用真實(shí)的測試集數(shù)據(jù)分別對這兩組分類器做評估,對比它們的效果。
在訓(xùn)練的分類器上我們使用精確率(Precision)、召回率(Recall)和F1值評估模型的效果。下面是評估指標(biāo)的計(jì)算公式:
在本文中,我們選擇了三個醫(yī)學(xué)上常用的機(jī)器學(xué)習(xí)模型,邏輯回歸(Logistic Regression,LR)[22]、隨機(jī)森林(Random Forests,RF)[23]和CatBoost 以及兩種最新針對表格類型數(shù)據(jù)的深度學(xué)習(xí)模型Tabnet 和TabResnet 來構(gòu)建分類器模型。LR 和RF 采用scikit-learn 框架[24]實(shí)現(xiàn),CatBoost,Tabnet 和TabResnet 我們使用它們的開源代碼庫[25~26]和原始參數(shù)設(shè)置進(jìn)行實(shí)現(xiàn)。
5.2.2 統(tǒng)計(jì)相似性
本文使用三個度量指標(biāo)來度量真實(shí)數(shù)據(jù)和生成數(shù)據(jù)之間的統(tǒng)計(jì)相似性。
Jensen-Shannon divergence(JSD),它的取值范圍在0 和1 之間,其中0 表示兩個數(shù)據(jù)概率分布完全相同,1 表示兩個數(shù)據(jù)概率分布完全不同。它在機(jī)器學(xué)習(xí)中經(jīng)常用于衡量概率分布之間的差異。在本文中,該值越小則證明生成數(shù)據(jù)集與真實(shí)數(shù)據(jù)的差異越小,生成的效果越好。JSD 的計(jì)算公式如式(5)所示,P、Q 分別為真實(shí)數(shù)據(jù)集與生成數(shù)據(jù)集的概率分布。
Wasserstein distance(WD),它的值越小,表示兩個概率分布越相似。與其他距離度量不同,Wasserstein 距離可以處理具有不同質(zhì)量的概率分布,而不僅僅是在集合上測量距離。在本文中,該值越小則證明生成數(shù)據(jù)集與真實(shí)數(shù)據(jù)的差異越小,生成的效果越好。WD 的計(jì)算公式如式(6)所示。其中,P、Q分別為真實(shí)數(shù)據(jù)集與生成數(shù)據(jù)集的概率分布,Π(P,Q)表示分布P 與Q 組合起來的所有可能的聯(lián)合分布的集合。
關(guān)系系數(shù)比較,我們使用皮爾遜相關(guān)系數(shù)比較兩組數(shù)據(jù)之間關(guān)系的差異。相關(guān)系數(shù)的取值范圍在-1~1 之間,越接近1 或-1,則說明特征列之間的關(guān)系越強(qiáng)。使用相關(guān)系數(shù)生成熱力圖,通過比較熱力圖的差異來衡量生成模型是否捕獲到數(shù)據(jù)之間相關(guān)性。
5.2.3 隱私暴露風(fēng)險(xiǎn)分析
Distance to Closest Record(DCR)是指在兩個數(shù)據(jù)集之間,數(shù)據(jù)集A 中數(shù)據(jù)點(diǎn)到數(shù)據(jù)集B 中數(shù)據(jù)點(diǎn)的最近距離,也就是說該值越大,隱私暴露的風(fēng)險(xiǎn)就越小。我們對每條生成數(shù)據(jù)選取與其最近的s條真實(shí)數(shù)據(jù),對它們的距離求平均值,然后對生成數(shù)據(jù)集的DCR 求平均,得出一個數(shù)據(jù)集的平均DCR。本文在兩個數(shù)據(jù)集上分別做了3 次DCR 實(shí)驗(yàn),s取值分別為1、5、10,以分析隱私暴露的風(fēng)險(xiǎn)及可能性。
5.3.1 機(jī)器學(xué)習(xí)效用
機(jī)器學(xué)習(xí)效用的研究結(jié)果見表1。數(shù)據(jù)源分別為真實(shí)數(shù)據(jù)集,使用CTGAN 和ACCTGAN 生成的數(shù)據(jù)集,將這三個數(shù)據(jù)源分別稱為“Origin”,“CTGAN”和“ACCTGAN”。表1 中首先是用“Origin”訓(xùn)練的下游任務(wù)分類器在真實(shí)測試集上的性能,然后展示了使用“CTGAN”和“ACCTGAN”訓(xùn)練的分類器在真實(shí)測試集上的表現(xiàn),這些生成數(shù)據(jù)規(guī)模分別是原始訓(xùn)練集的1、2、4、8倍。
表1 機(jī)器學(xué)習(xí)效用結(jié)果
實(shí)驗(yàn)結(jié)果表明,使用ACCTGAN,可以有效提升下游分類任務(wù)模型的性能。實(shí)驗(yàn)中發(fā)現(xiàn),生成適量的數(shù)據(jù)可以達(dá)到最佳的結(jié)果,具體而言,在本文進(jìn)行實(shí)驗(yàn)時,生成4 倍于原始訓(xùn)練集數(shù)量的數(shù)據(jù)可以取得最佳效果。在肺部并發(fā)癥、ICU 入室和心血管不良這三個任務(wù)中,使用ACCTGAN 生成的數(shù)據(jù)訓(xùn)練的下游分類器的F1 值分別為0.531、0.547 和0.343,相比與只使用原始數(shù)據(jù)集訓(xùn)練的分類器,效果有所提升,同時,使用CTGAN模型數(shù)據(jù)的分類器F1 值也分別為0.527、0.517 和0.336,其評價(jià)指標(biāo)同樣高于只使用原始訓(xùn)練集訓(xùn)練的分類器。這證明了使用GAN 模型生成的數(shù)據(jù)可以擴(kuò)展原始數(shù)據(jù)集少數(shù)類的規(guī)模,有助于緩解數(shù)據(jù)不平衡的問題,并改善分類模型的訓(xùn)練效果??梢赃_(dá)到數(shù)據(jù)增強(qiáng)的作用,提升下游分類模型。表格1 中的P、R 和F 分別代表評價(jià)指標(biāo)Precision,Recall和F1值。
實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了ACCTGAN 作為一種輔助任務(wù)增強(qiáng)的生成器,能夠更好地利用現(xiàn)有數(shù)據(jù),生成高質(zhì)量的生成數(shù)據(jù)。通過生成大量的高質(zhì)量生成數(shù)據(jù),用于訓(xùn)練下游分類器,從而增強(qiáng)了下游分類模型的泛化能力和性能。
5.3.2 統(tǒng)計(jì)相似性
在統(tǒng)計(jì)相似性和隱私暴露風(fēng)險(xiǎn)分析這兩個實(shí)驗(yàn)中,我們都使用與原始訓(xùn)練集同規(guī)模的生成數(shù)據(jù)集進(jìn)行比較。因?yàn)槲覀兊哪P褪峭ㄟ^分類器考慮標(biāo)簽與特征之間的關(guān)系,以下游任務(wù)為導(dǎo)向生成的數(shù)據(jù),在第一個數(shù)據(jù)集上有肺部并發(fā)癥和心血管不良這兩種標(biāo)簽,因此我們的模型根據(jù)這兩種標(biāo)簽生成了兩個數(shù)據(jù)集,在實(shí)驗(yàn)中我們以標(biāo)簽的名稱命名數(shù)據(jù)集。
表2 展示了統(tǒng)計(jì)相似性分析的結(jié)果,圖中顏色越淺變量之間正相關(guān)性越強(qiáng),顏色越深則變量之間負(fù)相關(guān)性越強(qiáng)。ACCTGAN在肺部并發(fā)癥和心血管不良數(shù)據(jù)集上的JSD 和WD 指標(biāo)均優(yōu)于CTGAN,在ICU 入室數(shù)據(jù)集上的JSD 值也優(yōu)于CTGAN,但WD指標(biāo)上CTGAN的結(jié)果略優(yōu)于ACCTGAN,這證明了在肺部并發(fā)癥和心血管不良這兩個數(shù)據(jù)集上ACCTGAN生成的數(shù)據(jù)集更接近于原始數(shù)據(jù)集的分布。JSD和WD指標(biāo)主要用于驗(yàn)證生成的數(shù)據(jù)集是否符合原始數(shù)據(jù)集的分布,結(jié)果表明這兩個GAN模型均符合原始數(shù)據(jù)集的分布。
表2 統(tǒng)計(jì)相似性結(jié)果對比
此外,我們還進(jìn)行了一組實(shí)驗(yàn),記錄原始數(shù)據(jù)集每列的最大和最小值,并計(jì)算生成數(shù)據(jù)集出現(xiàn)在該區(qū)間內(nèi)的頻次。該頻次的結(jié)果值范圍為0~1,如果結(jié)果為1,則表示所有生成數(shù)據(jù)都在該區(qū)間內(nèi)。結(jié)果如表3 所示,從結(jié)果可以看出,這兩個GAN 模型都沒有生成原始數(shù)據(jù)集最大最小值區(qū)間外的異常值,這說明了生成的數(shù)據(jù)集與原始數(shù)據(jù)集在最大最小值區(qū)間保持了高度的相似。這個結(jié)果表明這兩個生成模型在生成數(shù)據(jù)時能夠有效地控制數(shù)據(jù)的范圍,避免生成異常值。這對于保持生成數(shù)據(jù)的可信度和質(zhì)量至關(guān)重要,使得生成數(shù)據(jù)能夠更好地與原始數(shù)據(jù)集相匹配,并在下游任務(wù)中具有可用性。
表3 非異常數(shù)據(jù)分布檢測結(jié)果
相關(guān)性的熱力圖如圖4、5、6 所示,比較了原始數(shù)據(jù)集和通過CTGAN 模型生成的數(shù)據(jù)集以及通過ACCTGAN模型生成的數(shù)據(jù)集這三者之間的相關(guān)性差異。我們首先觀察三個數(shù)據(jù)集的整體情況,CTGAN 模型生成數(shù)據(jù)集的熱力圖比原始數(shù)據(jù)的熱力圖顏色要整體偏深,這代表CTGAN 生成數(shù)據(jù)集的相關(guān)性與原始數(shù)據(jù)有一定差異,而ACCTGAN 生成數(shù)據(jù)的熱力圖與原始數(shù)據(jù)的熱力圖顏色分布基本類似,這證明ACCTGAN 更好的學(xué)習(xí)到了原始數(shù)據(jù)之間的相關(guān)性,且在幾個強(qiáng)相關(guān)的點(diǎn),ACCTGAN都有學(xué)習(xí)到。這證明了ACCTGAN 生成的數(shù)據(jù)更貼近于原始數(shù)據(jù)的相關(guān)性。
圖4 肺部并發(fā)癥數(shù)據(jù)集熱力圖
圖5 ICU入室數(shù)據(jù)集熱力圖
圖6 心血管不良數(shù)據(jù)集熱力圖
綜上所述,實(shí)驗(yàn)結(jié)果表明ACCTGAN 在統(tǒng)計(jì)相似性方面的表現(xiàn)優(yōu)于CTGAN,這些優(yōu)勢可歸功于在模型中添加了分類器,使模型更好地保持了原始數(shù)據(jù)的關(guān)聯(lián)關(guān)系。
5.3.3 隱私暴露風(fēng)險(xiǎn)分析
表4 展示了我們對原始數(shù)據(jù)集和生成數(shù)據(jù)集進(jìn)行的DCR 計(jì)算結(jié)果。首先可以看出,兩個GAN模型生成數(shù)據(jù)的DCR 都比原始數(shù)據(jù)集高,這說明本文所采用的GAN 模型不是簡單地記憶原始數(shù)據(jù)并生成相同的數(shù)據(jù),而是學(xué)習(xí)了數(shù)據(jù)之間的模式,生成了與原始數(shù)據(jù)集不同的新樣本作為生成數(shù)據(jù)集。其中可以注意到的是,隨著s取值的減少,DCR的結(jié)果在真實(shí)數(shù)據(jù)上減少的幅度要大于ACCTGAN。這暗示著生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間,最近的s 條數(shù)據(jù)的距離要大于原數(shù)據(jù)的距離,這種結(jié)果的產(chǎn)生可以被視為對真實(shí)數(shù)據(jù)隱私的一種保護(hù)。這兩點(diǎn)表明ACCTGAN 可以有效地生成隱私保護(hù)數(shù)據(jù),用于數(shù)據(jù)共享。
表4 DCR結(jié)果對比
表格數(shù)據(jù)作為患者病歷的載體,使用表格數(shù)據(jù)對患者病情進(jìn)行分析和使用機(jī)器學(xué)習(xí)模型輔助醫(yī)生預(yù)測術(shù)后并發(fā)癥是一種常見的方式。但是由于數(shù)據(jù)的隱私性,這些數(shù)據(jù)不能被共享,這使得可供訓(xùn)練模型的數(shù)據(jù)有限,并且數(shù)據(jù)陽性樣本很低,導(dǎo)致訓(xùn)練出來的模型效果一般。為此,本文提出一種以下游任務(wù)為導(dǎo)向的生成模型,使用該模型學(xué)習(xí)原始數(shù)據(jù)集的信息,生成更多高質(zhì)量的生成數(shù)據(jù)用于訓(xùn)練分類器,提升下游任務(wù)模型的效果,為預(yù)測術(shù)后并發(fā)癥任務(wù)提出一種新的解決方案。實(shí)驗(yàn)證明,使用ACCTGAN 可以提高下游分類器的預(yù)測性能,通過統(tǒng)計(jì)相似性和隱私暴露分析證明了GAN 模型有學(xué)到原始數(shù)據(jù)中的相關(guān)信息,而不僅僅是記憶原始數(shù)據(jù)。因此,我們的方法可以作為醫(yī)學(xué)數(shù)據(jù)隱私共享問題和不平衡數(shù)據(jù)對分類器性能的影響的一種新的解決方案。