楊文開(kāi),董云云,趙涓涓+,強(qiáng) 彥,劉 江,Muhammad Bilal Zia
(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600;2.山西省腫瘤醫(yī)院 放射科,山西 太原 030000)
甲狀腺結(jié)節(jié)是常見(jiàn)的臨床疾病[1]。臨床診斷甲狀腺結(jié)節(jié)需要經(jīng)驗(yàn)豐富的放射科醫(yī)生閱讀超聲成像切片。然而,由于超聲成像容易受到回聲干擾和斑點(diǎn)噪聲的影響,如圖1所示,因此,對(duì)于經(jīng)驗(yàn)不足的年輕放射科醫(yī)生,往往存在較高的誤診率。最近,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)方面取得了巨大的成功[2-4]。然而它們?cè)诩谞钕俳Y(jié)節(jié)分類(lèi)方面并沒(méi)有達(dá)到令人滿(mǎn)意的性能,因?yàn)樾阅軆?yōu)越的深度學(xué)習(xí)模型依賴(lài)帶標(biāo)簽的較大規(guī)模的數(shù)據(jù)集的訓(xùn)練。為了緩解小樣本醫(yī)學(xué)圖像數(shù)據(jù)集對(duì)深度學(xué)習(xí)模型的訓(xùn)練的限制,一些研究方案被提出,如使用遷移學(xué)習(xí)技術(shù)[5],或者采用半監(jiān)督學(xué)習(xí)技術(shù)[6]。雖然這些方法取得了一定的成就,但是由于真實(shí)標(biāo)記樣本數(shù)量的限制,上述挑戰(zhàn)仍然無(wú)法很好被解決。生成對(duì)抗網(wǎng)絡(luò)(GAN)[7]可以通過(guò)訓(xùn)練來(lái)生成數(shù)據(jù)。然而,由于訓(xùn)練過(guò)程的不穩(wěn)定,GAN生成的圖像質(zhì)量具有差異性。提出一種超聲圖像中甲狀腺結(jié)節(jié)的生成方法,具體的,首先cGAN以編碼后的不同樣式的結(jié)節(jié)掩膜作為條件來(lái)生成具有不同特征的結(jié)節(jié)。然后,使用貝葉斯神經(jīng)網(wǎng)絡(luò)[8]識(shí)別出最有價(jià)值的生成樣本并用其構(gòu)建新的數(shù)據(jù)集來(lái)訓(xùn)練模型進(jìn)行結(jié)節(jié)的分割和分類(lèi)。實(shí)驗(yàn)結(jié)果表明,提出的方法可以在獲得令人滿(mǎn)意的分割和分類(lèi)精度下,減少對(duì)真實(shí)訓(xùn)練樣本的使用量,從而有效緩解小樣本醫(yī)學(xué)數(shù)據(jù)集的問(wèn)題。
圖1 良性和惡性甲狀腺結(jié)節(jié)及其對(duì)應(yīng)的掩膜
從合作醫(yī)院收集了1030例超聲甲狀腺結(jié)節(jié)病變圖像,其中良性結(jié)節(jié)病變圖像534例,惡性結(jié)節(jié)病變圖像496例,并確保收集的病變圖像能夠包含不同年齡階段的患者(年齡均大于18歲),所有數(shù)據(jù)均經(jīng)過(guò)脫敏處理。所有結(jié)節(jié)的平均大小約為2.4 cm,并確保收集的病變圖像可以包括不同大小的結(jié)節(jié)。所有圖像均由兩名具有8年以上經(jīng)驗(yàn)的高級(jí)放射科醫(yī)生根據(jù)病理學(xué)檢查結(jié)果進(jìn)行良性或惡性標(biāo)記,并手工繪制結(jié)節(jié)的掩膜,如圖1所示。
提出的算法主要包括以下步驟:
(1)對(duì)收集的超聲結(jié)節(jié)圖像進(jìn)行數(shù)據(jù)預(yù)處理;
(2)修改結(jié)節(jié)掩膜;
(3)利用VAE網(wǎng)絡(luò)[9]編碼掩膜圖像;
(4)構(gòu)建條件生成對(duì)抗網(wǎng)絡(luò)(cGAN)進(jìn)行圖像生成;
(5)利用貝葉斯神經(jīng)網(wǎng)絡(luò)對(duì)生成圖像進(jìn)行得分排名,并選擇得分最高的幾個(gè)圖像添加到原始訓(xùn)練數(shù)據(jù)集中;
(6)利用擴(kuò)充后的數(shù)據(jù)集來(lái)訓(xùn)練結(jié)節(jié)分割或分類(lèi)網(wǎng)絡(luò)。
提出算法的整體流程如圖2所示。
圖2 提出算法的整體框架
1.2.1 數(shù)據(jù)預(yù)處理
對(duì)于收集的超聲甲狀腺結(jié)節(jié)圖像按照以下步驟進(jìn)行預(yù)處理,如圖3所示。
(1)移除無(wú)用背景區(qū)域:收集的原始甲狀腺結(jié)節(jié)超聲圖像(圖3(a))中包含了許多對(duì)訓(xùn)練無(wú)用的背景信息,例如醫(yī)院信息、超聲設(shè)備參數(shù)等,并且它們的位置會(huì)發(fā)生改變。首先,根據(jù)背景區(qū)域與實(shí)際甲狀腺結(jié)節(jié)超聲圖像區(qū)域(灰色區(qū)域)之間的像素為0的特點(diǎn),自動(dòng)裁剪掉無(wú)用背景信息。最終,獲得實(shí)際的超聲圖像區(qū)域(圖3(b))。
(2)獲取結(jié)節(jié)感興趣區(qū)域(ROI):在移除無(wú)用背景區(qū)域后,首先,根據(jù)超聲圖像中白色矩形框(超聲檢查過(guò)程中由放射科醫(yī)師手動(dòng)標(biāo)記)的位置,提取出結(jié)節(jié)ROI區(qū)域(圖3(c))。然后,為了適應(yīng)接下來(lái)網(wǎng)絡(luò)的輸入,以矩形框的中心為中心,并以矩形框的較短邊的長(zhǎng)度作為邊長(zhǎng)提取出完全包含結(jié)節(jié)的方形ROI(圖3(d))。此外,為了獲得結(jié)節(jié)分割所用的掩膜圖像,由兩位高級(jí)放射科醫(yī)師分別對(duì)結(jié)節(jié)區(qū)域進(jìn)行手動(dòng)分割,并將分割后的結(jié)節(jié)區(qū)域中的像素設(shè)置為255,結(jié)節(jié)區(qū)域以外的正常組織的像素設(shè)置為0,最后,以?xún)擅派淇漆t(yī)師手動(dòng)分割的結(jié)節(jié)掩膜的交叉區(qū)域作為最終的結(jié)節(jié)掩膜(圖3(e))。為了適應(yīng)cGAN的輸入,將獲取的方形結(jié)節(jié)ROI與方形結(jié)節(jié)掩膜的尺寸統(tǒng)一調(diào)整為70×70。
圖3 數(shù)據(jù)預(yù)處理過(guò)程
1.2.2 修改結(jié)節(jié)掩膜
為了生成包含不同特征的結(jié)節(jié)圖像,采用以下一個(gè)或多個(gè)步驟來(lái)對(duì)結(jié)節(jié)的掩膜圖像進(jìn)行修改,如圖4所示。
(1)移動(dòng)掩膜邊界:首先對(duì)結(jié)節(jié)掩膜邊界線上的像素點(diǎn)進(jìn)行隨機(jī)位移以改變其形狀。具體的,對(duì)邊界線上每個(gè)像素點(diǎn)隨機(jī)移動(dòng)±[1,13]像素(圖4(a))。然后,使用b樣條線對(duì)修改后的邊界線重新進(jìn)行擬合(圖4(b))。對(duì)于結(jié)節(jié)內(nèi)部區(qū)域和周?chē)=M織區(qū)域新產(chǎn)生的像素值,使用線性插值的方法來(lái)產(chǎn)生(圖4(c))。
圖4 修改結(jié)節(jié)掩膜
(2)其它傳統(tǒng)圖像增強(qiáng)技術(shù):水平或豎直翻轉(zhuǎn),隨機(jī)旋轉(zhuǎn),平移。
1.2.3 結(jié)節(jié)掩膜圖像的編碼
為了能夠?qū)⒔Y(jié)節(jié)掩膜圖像作為圖像生成的條件,首先需要將結(jié)節(jié)掩膜圖像編碼為向量。使用VAE網(wǎng)絡(luò)將結(jié)節(jié)掩膜編碼為一個(gè)向量z。VAE網(wǎng)絡(luò)是在自編碼網(wǎng)絡(luò)的基礎(chǔ)上做了進(jìn)一步變分處理,從而使得編碼器的輸出結(jié)果能夠?qū)?yīng)到目標(biāo)圖像分布的均值和方差,因此,得到的輸出結(jié)果向量能夠大致遵循標(biāo)準(zhǔn)正態(tài)分布。通過(guò)這種方式編碼產(chǎn)生的向量能夠被最大限度無(wú)損地解碼為原始輸入的真實(shí)圖像。假設(shè)輸入的結(jié)節(jié)掩膜為x,經(jīng)過(guò)VAE網(wǎng)絡(luò)編碼會(huì)生成兩組向量,一組代表均值μ,一組代表標(biāo)準(zhǔn)差σ,如圖5所示,此外,在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,還使用了重新參數(shù)化技巧[10],即對(duì)編碼產(chǎn)生的標(biāo)準(zhǔn)差σ添加一組符合高斯分布的噪聲(ε~N(0,1)),因此該網(wǎng)絡(luò)最終編碼得到的向量z,可以用下式表示
圖5 結(jié)節(jié)掩膜圖像的編碼
z=μ+σ×ε;ε~N(0,1)
(1)
其中,z是輸入結(jié)節(jié)掩膜的編碼結(jié)果向量。μ是均值向量,σ是標(biāo)準(zhǔn)差向量,ε是添加的高斯噪聲。
1.2.4 使用cGAN進(jìn)行圖像生成
生成器:用G來(lái)表示,其參數(shù)用θg表示。它遵循U-net網(wǎng)絡(luò)[11]架構(gòu),由收縮路徑和擴(kuò)展路徑組成,如圖2所示,收縮路徑遵循卷積神經(jīng)網(wǎng)絡(luò)的典型架構(gòu),共有8個(gè)卷積層構(gòu)成。其中第一個(gè)卷積層采用尺寸為4×4的卷積核,步長(zhǎng)為2,并使用LeakyRelu作為激活函數(shù)。除第一個(gè)卷積層之外,其余卷積層均采用尺寸為4×4的卷積核,步長(zhǎng)為2,并進(jìn)行數(shù)據(jù)歸一化(batch normalization,BN)操作,使用LeakyRelu作為激活函數(shù)。收縮路徑中前7個(gè)卷積層輸出的特征圖將經(jīng)過(guò)復(fù)制之后與擴(kuò)展路徑中相應(yīng)的卷積層輸出的特征圖進(jìn)行級(jí)聯(lián)。擴(kuò)展路徑同樣由8個(gè)層構(gòu)成,其中第一層到第七層,每層都有一個(gè)對(duì)特征圖的上采樣操作,后跟一個(gè)4×4的卷積層,并進(jìn)行BN操作與Dropout操作,然后使用Relu作為激活函數(shù)。第八層同樣進(jìn)行特征圖的上采樣操作,后跟一個(gè)4×4的卷積層,但不進(jìn)行BN操作和Dropout操作,并且使用Tanh作為激活函數(shù)。對(duì)于生成器的輸入,z和結(jié)節(jié)的ROI圖像I一起作為生成器的輸入,此時(shí)的z將作為約束條件,來(lái)指導(dǎo)生成器的圖像生成過(guò)程。最終生成器將輸出一個(gè)與輸入I尺寸相同的假圖像G(z,I)。
判別器:用D來(lái)表示,其參數(shù)用θd來(lái)表示。它以原始結(jié)節(jié)ROI圖像I和生成器產(chǎn)生的假圖像 G((z,I);θd)作為輸入,并最終給出該輸入是來(lái)自真圖像或是假圖像的置信概率。它由4個(gè)卷積層構(gòu)成,如圖2所示,其中第一個(gè)卷積層采用尺寸為4×4的卷積核,步長(zhǎng)為2,并使用LeakyRelu作為激活函數(shù)。其余3個(gè)卷積層均采用尺寸為4×4的卷積核,步長(zhǎng)為2,并進(jìn)行BN操作,然后使用LeakyRelu作為激活函數(shù)。最后一個(gè)卷積層的輸出將被映射為一維向量,然后經(jīng)過(guò)一個(gè)Sigmoid神經(jīng)元,得到該輸入是來(lái)自真圖像或者假圖像的置信概率。
1.2.5 cGAN的訓(xùn)練
原始cGAN的目標(biāo)函數(shù)表示為下式
LcGAN(G,D)=EI,y[logD(I,y)]+
EI,z[log(1-D(I,G(z,I)))]
(2)
其中,I代表輸入的真實(shí)圖像,z代表輸入的符合正態(tài)分布的隨機(jī)噪聲,y代表輸出的圖像, G(z,I)→y生成器 G試圖將這個(gè)目標(biāo)函數(shù)最小化,而判別器D則試圖將其最大化。兩者相互對(duì)抗來(lái)完成網(wǎng)絡(luò)的訓(xùn)練
(3)
此外,先前的研究已經(jīng)發(fā)現(xiàn),將GAN的目標(biāo)函數(shù)與傳統(tǒng)的損失函數(shù)(例如L2距離)結(jié)合使用,對(duì)于生成器產(chǎn)生更加高質(zhì)量的圖像是有益的。在將兩者結(jié)合使用之后,鑒別器的任務(wù)保持不變,但是生成器的任務(wù)不僅是欺騙鑒別器,而且還要使得產(chǎn)生的假圖像在L2距離上接近于真實(shí)的輸入圖像。在這里使用L1距離來(lái)代替L2距離,因?yàn)長(zhǎng)1距離可以使得生成的假圖像的模糊性盡可能的減少[12]
(4)
因此,最終的目標(biāo)函數(shù)如下
(5)
其中,λ設(shè)置為9以在 LcGAN(G,D)和LL1(G)兩者之間取得平衡。
1.2.6 生成圖像信息量的計(jì)算
(6)
算法1:在cGAN訓(xùn)練過(guò)程中,采用Minibatch隨機(jī)梯度下降法作為優(yōu)化器。在訓(xùn)練期間,首先在鑒別器上執(zhí)行k步更新,然后在生成器上執(zhí)行一步更新,兩者交替進(jìn)行。
for訓(xùn)練迭代次數(shù)do
fork步do
·m個(gè)小批量噪聲樣本 {z(1),…,z(m)} 來(lái)自噪聲向量z
·m個(gè)小批量結(jié)節(jié)圖像樣本 {I(1),…,I(m)} 來(lái)自結(jié)節(jié)圖像集合I
·m個(gè)小批量輸出圖像樣本{y(1),…,y(m)}來(lái)自輸出圖像集合y
·通過(guò)隨機(jī)梯度下降算法來(lái)更新判別器參數(shù)
endfor
·m個(gè)小批量噪聲樣本{z(1),…,z(m)}來(lái)自噪聲向量z
·m個(gè)小批量結(jié)節(jié)圖像樣本{I(1),…,I(m)}來(lái)自結(jié)節(jié)圖像集合I
·m個(gè)小批量輸出圖像樣本{y(1),…,y(m)}來(lái)自輸出圖像集合y
·通過(guò)隨機(jī)梯度下降算法來(lái)更新生成器參數(shù)
endfor
首先以病人為單位將數(shù)據(jù)集互斥的劃分為訓(xùn)練集(80%)、驗(yàn)證集(10%)、測(cè)試集(10%),即保證每個(gè)病人的所有結(jié)節(jié)圖像只出現(xiàn)在某個(gè)數(shù)據(jù)集類(lèi)別中(訓(xùn)練集或驗(yàn)證集或測(cè)試集),以保證驗(yàn)證集和測(cè)試集中的圖像不會(huì)出現(xiàn)在訓(xùn)練集中。訓(xùn)練集和驗(yàn)證集用來(lái)調(diào)整模型參數(shù),測(cè)試集用來(lái)評(píng)價(jià)訓(xùn)練得到的模型的性能。對(duì)于分類(lèi)結(jié)果的評(píng)價(jià)指標(biāo),通過(guò)獲得的準(zhǔn)確性(Acc)、敏感性(Sen)、特異性(Spe),和接收者工作曲線(ROC)線下面積(AUC)的平均值來(lái)評(píng)估模型性能。準(zhǔn)確性表示的是算法能夠正確識(shí)別良惡性結(jié)節(jié)的能力。敏感性表示算法能夠正確識(shí)別惡性結(jié)節(jié)的能力。特異性表示算法能夠正確識(shí)別良性結(jié)節(jié)的能力。AUC值對(duì)類(lèi)別不平衡樣本的分類(lèi)很敏感,通常用于衡量算法對(duì)結(jié)節(jié)分類(lèi)的綜合性能,整體實(shí)驗(yàn)過(guò)程如算法2所示。
算法2:提出的算法的整體實(shí)驗(yàn)過(guò)程
輸入:結(jié)節(jié)掩膜x和結(jié)節(jié)圖像I
(1)對(duì)于輸入結(jié)節(jié)圖像I和對(duì)應(yīng)的結(jié)節(jié)掩膜x;
(2)從訓(xùn)練集中選擇一部分I和x, 使用它們來(lái)微調(diào)預(yù)先訓(xùn)練的VGG16分類(lèi)網(wǎng)絡(luò)和訓(xùn)練U-net分割網(wǎng)絡(luò);
(3)對(duì)訓(xùn)練集中剩余結(jié)節(jié)掩膜v使用1.2.2節(jié)中提出的方法進(jìn)行修改,得到修改后的掩膜w;
(4)以w作為輸入, VAE網(wǎng)絡(luò)將其編碼為向量z;
(5)以I和z作為輸入,利用cGAN進(jìn)行數(shù)據(jù)生成;
(6)使用貝葉斯神經(jīng)網(wǎng)絡(luò)計(jì)算生成數(shù)據(jù)的信息量并按降序排序,然后挑選排名靠前的幾個(gè)圖像并添加到訓(xùn)練集中形成新的訓(xùn)練集;
(7)使用新的訓(xùn)練集重新微調(diào) VGG16分類(lèi)網(wǎng)絡(luò)和U-net分割網(wǎng)絡(luò);
(8)在驗(yàn)證集上驗(yàn)證訓(xùn)練得到的VGG16分類(lèi)網(wǎng)絡(luò)和U-net分割網(wǎng)絡(luò)的性能;
(9)如果分類(lèi)或者分割性能進(jìn)一步提升,則重復(fù)步驟(4)~步驟(8),否則轉(zhuǎn)到步驟(10);
(10)訓(xùn)練結(jié)束。
輸出:訓(xùn)練完成的VGG16分類(lèi)網(wǎng)絡(luò)和U-net分割網(wǎng)絡(luò),并在測(cè)試集上進(jìn)行評(píng)估
為了驗(yàn)證提出的數(shù)據(jù)生成方法可以在僅使用少量真實(shí)的帶標(biāo)記結(jié)節(jié)圖像和大量生成數(shù)據(jù)的情況下,有效提升結(jié)節(jié)的分類(lèi)性能,在使用不同比例的真實(shí)標(biāo)記數(shù)據(jù)下(10%,15%,25%,30%),使用在ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練的VGG16網(wǎng)絡(luò)[13]對(duì)結(jié)節(jié)進(jìn)行分類(lèi)實(shí)驗(yàn)。此外,為了使VGG16網(wǎng)絡(luò)適應(yīng)接下來(lái)的甲狀腺結(jié)節(jié)的良惡性分類(lèi)問(wèn)題,首先刪除VGG16網(wǎng)絡(luò)的最后一個(gè)全連接層,然后分別添加了3個(gè)全連接層,這3個(gè)全連接層分別具有2048、1024和兩個(gè)神經(jīng)元。它們的權(quán)重是隨機(jī)初始化的。最后一層的兩個(gè)神經(jīng)元使用sigmoid函數(shù)作為激活函數(shù)。提出的甲狀腺結(jié)節(jié)超聲圖像生成方法在結(jié)節(jié)分類(lèi)中的結(jié)果如表1和圖6所示。10%表示:①?gòu)挠?xùn)練集中隨機(jī)選取10%的數(shù)據(jù)形成一個(gè)初始微調(diào)集;②對(duì)微調(diào)集中的每個(gè)圖像進(jìn)行標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)(水平翻轉(zhuǎn)或垂直翻轉(zhuǎn),旋轉(zhuǎn),隨機(jī)圖像平移),為每個(gè)圖像生成4個(gè)擴(kuò)充圖像,然后使用它們來(lái)微調(diào)VGG16網(wǎng)絡(luò);③對(duì)于剩余的圖像及其掩膜,使用提出的cGAN模型生成多個(gè)圖像,使用貝葉斯神經(jīng)網(wǎng)絡(luò)計(jì)算生成圖像的信息量并排名,選取排名靠前的4名,并進(jìn)行標(biāo)準(zhǔn)數(shù)據(jù)增廣,之后將他們添加到初始微調(diào)數(shù)據(jù)集中形成新的數(shù)據(jù)集,然后使用新形成的數(shù)據(jù)集對(duì)VGG16網(wǎng)絡(luò)繼續(xù)進(jìn)行微調(diào),并在驗(yàn)證集上驗(yàn)證模型性能,重復(fù)此過(guò)程,直到在驗(yàn)證集上的分類(lèi)準(zhǔn)確性不再進(jìn)一步提高為止。其它比例下的數(shù)據(jù)(15%,25%,35%)與上述實(shí)驗(yàn)過(guò)程相同。以上所有實(shí)驗(yàn)重復(fù)執(zhí)行10次,保證每個(gè)數(shù)據(jù)都被用于組成初始微調(diào)集和用于輸入到cGAN中進(jìn)行數(shù)據(jù)生成至少一次,因此總共訓(xùn)練得到10個(gè)模型,每個(gè)模型均在測(cè)試集上進(jìn)行獨(dú)立測(cè)試,取10次測(cè)試的平均結(jié)果作為分類(lèi)結(jié)果來(lái)評(píng)估模型的分類(lèi)性能。在FSL下,5折表示使用全部真實(shí)標(biāo)記數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)數(shù)據(jù)擴(kuò)充之后形成的數(shù)據(jù)集進(jìn)行5折交叉驗(yàn)證微調(diào)VGG16網(wǎng)絡(luò)的結(jié)果。35%表示從全部真實(shí)標(biāo)記數(shù)據(jù)集中隨機(jī)選擇35%的數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)數(shù)據(jù)擴(kuò)充之后形成的數(shù)據(jù)集來(lái)微調(diào)VGG16網(wǎng)絡(luò)(該情況下同樣重復(fù)實(shí)驗(yàn)5次),然后計(jì)算在測(cè)試集上的平均結(jié)果。
表1 不同比例真實(shí)標(biāo)記數(shù)據(jù)下的結(jié)節(jié)分類(lèi)結(jié)果
圖6 不同比例真實(shí)標(biāo)記數(shù)據(jù)下結(jié)節(jié)分類(lèi)的ROC曲線
從表1中可以看出,在VGG16(不同比例)下,隨著使用的真實(shí)標(biāo)記數(shù)據(jù)的比例提升,結(jié)節(jié)的分類(lèi)性能逐漸提高。當(dāng)這種比例達(dá)到35%時(shí),結(jié)節(jié)的分類(lèi)性能幾乎與VGG16(FSL)相同,表明提出的方法可以減少深度學(xué)習(xí)模型對(duì)真實(shí)訓(xùn)練樣本的使用量,從而有效緩解小樣本數(shù)據(jù)集在甲狀腺結(jié)節(jié)分類(lèi)中的局限性。
為了進(jìn)一步解釋在使用不同比例真實(shí)標(biāo)記數(shù)據(jù)下,VGG16網(wǎng)絡(luò)能夠從結(jié)節(jié)圖像中執(zhí)行良好的特征提取,在使用35%真實(shí)標(biāo)記數(shù)據(jù)下,隨機(jī)選擇了6個(gè)結(jié)節(jié)(圖7,第一行,左側(cè)3列為良性結(jié)節(jié),右側(cè)3列為惡性結(jié)節(jié)),并可視化最后一個(gè)卷積層的CAM激活圖(圖7,第二行),其中CAM是一個(gè)熱圖,可以突出分類(lèi)器在做出決策時(shí)的注意力區(qū)域,因此,它可以揭示與預(yù)測(cè)相關(guān)的區(qū)域[14]。此外,還將CAM覆蓋在原始結(jié)節(jié)圖像上,以更直觀地顯示與預(yù)測(cè)相關(guān)的結(jié)節(jié)區(qū)域(圖7,第三行)。如圖7所示,在使用35%真實(shí)標(biāo)記數(shù)據(jù)下, VGG16網(wǎng)絡(luò)可以將注意力集中在結(jié)節(jié)區(qū)域,并正確地激活與預(yù)測(cè)相關(guān)的結(jié)節(jié)區(qū)域,表明提出的方法從結(jié)節(jié)圖像中執(zhí)行良好的特征提取任務(wù)。
圖7 隨機(jī)選擇的6個(gè)結(jié)節(jié)及其激活圖
為了驗(yàn)證提出的數(shù)據(jù)生成方法,可以在使用少量標(biāo)記數(shù)據(jù)和大量生成數(shù)據(jù)的情況下,對(duì)結(jié)節(jié)分割性能的提升同樣具有有益價(jià)值,在不同比例的標(biāo)記數(shù)據(jù)下訓(xùn)練了U-net網(wǎng)絡(luò)來(lái)進(jìn)行結(jié)節(jié)分割實(shí)驗(yàn)。與結(jié)節(jié)分類(lèi)時(shí)的情況相同,首先在不同比例真實(shí)標(biāo)記數(shù)據(jù)下訓(xùn)練U-net進(jìn)行結(jié)節(jié)分割,并在測(cè)試集上測(cè)試訓(xùn)練得到的U-net分割模型的性能。由兩位8年以上的高級(jí)放射科醫(yī)師手動(dòng)分割的結(jié)節(jié)掩膜的交叉區(qū)域作為金標(biāo)準(zhǔn),并以平均相似度度量函數(shù)(dice similarity coefficient,式(7))與敏感性(Sen,式(8))[15]作為指標(biāo),如圖8所示,對(duì)U-net產(chǎn)生的分割結(jié)果與金標(biāo)準(zhǔn)進(jìn)行了比較,結(jié)果見(jiàn)表2。其中,Dsc和Sen 兩個(gè)指標(biāo)越大表示模型分割性能越好。從表2中可以看出,與結(jié)節(jié)分類(lèi)類(lèi)似,在使用少量真實(shí)標(biāo)記數(shù)據(jù)(約35%)時(shí),U-net的結(jié)節(jié)分割性能幾乎與FSL下相同,這表明提出的方法可以減少U-net分割模型對(duì)真實(shí)訓(xùn)練樣本的依賴(lài)性,從而有效緩解小樣本數(shù)據(jù)集對(duì)結(jié)節(jié)分割的局限性。此外,為了更加直觀地展示不同比例的標(biāo)記數(shù)據(jù)下U-net獲得的分割結(jié)果與金標(biāo)準(zhǔn)之間的差異的變化,可視化了結(jié)節(jié)的分割結(jié)果,如圖9所示。在圖9中,黑色實(shí)線為金標(biāo)準(zhǔn)輪廓,黑色虛線為U-net分割輪廓。圖9(a)、圖9(b)、圖9(c)、圖9(d)、圖9(e)分別為使用10%,15%,25%,30%,35%的真實(shí)標(biāo)記數(shù)據(jù)下的分割結(jié)果。從圖9中可以看出當(dāng)使用的真實(shí)標(biāo)記數(shù)據(jù)較少時(shí)(10%),U-net獲得的分割結(jié)果較差,隨著使用的真實(shí)標(biāo)記數(shù)據(jù)數(shù)量增加,分割性能逐步提高。在使用約35%的真實(shí)標(biāo)記數(shù)據(jù)下,可以獲得令人滿(mǎn)意的分割結(jié)果
圖9 分割得到的結(jié)節(jié)區(qū)域的變化
表2 不同比例真實(shí)標(biāo)記數(shù)據(jù)下獲得的結(jié)節(jié)分割結(jié)果
圖8 結(jié)節(jié)分割性能指標(biāo)計(jì)算中的不同區(qū)域
(7)
(8)
本文提出了一種甲狀腺結(jié)節(jié)超聲圖像生成方法,該方法以更改的結(jié)節(jié)掩膜作為條件,利用cGAN進(jìn)行數(shù)據(jù)生成,使用貝葉斯神經(jīng)網(wǎng)絡(luò)選擇信息量最豐富的樣本來(lái)擴(kuò)充訓(xùn)練數(shù)據(jù)集,以克服醫(yī)學(xué)圖像小樣本數(shù)據(jù)集在甲狀腺結(jié)節(jié)分割和分類(lèi)應(yīng)用方面的局限性。實(shí)驗(yàn)結(jié)果表明,提出的方法可以在獲得令人滿(mǎn)意的分割和分類(lèi)準(zhǔn)確性的前提下,減少對(duì)訓(xùn)練樣本的使用量,從而有效緩解小樣本數(shù)據(jù)集對(duì)結(jié)節(jié)分割和分類(lèi)的局限性。在未來(lái)的工作中,將嘗試從其它中心收集更多的數(shù)據(jù)來(lái)訓(xùn)練提出的模型,以評(píng)估提出的模型應(yīng)用到多中心數(shù)據(jù)上的潛力。