融合多尺度卷積的端到端宮頸細胞分割

2023-03-30 08:52:26王文濤王嘉鑫陳大江

現(xiàn)代計算機 2023年2期

王文濤，王嘉鑫，張根，陳大江

（1.中南民族大學(xué)計算機科學(xué)學(xué)院，武漢 430074；2.湖北省制造企業(yè)智能管理工程技術(shù)研究中心，武漢 430074）

0 引言

宮頸癌是女性最常見的惡性腫瘤之一，據(jù)世界衛(wèi)生組織估計，目前全世界約有100萬婦女患有宮頸癌。幸運的是，宮頸癌是目前唯一明確病因、可預(yù)防、早發(fā)現(xiàn)可治療的癌癥［1］。宮頸細胞涂片篩查是早期檢測宮頸癌的重要細胞學(xué)篩查方法之一，但傳統(tǒng)的細胞涂片需要專業(yè)病理學(xué)家進行手動篩查，分析過程繁瑣、耗時，長時間工作下容易出錯，因此，計算機輔助篩查在該領(lǐng)域有著重大意義。

細胞學(xué)篩查需要觀察細胞形態(tài)特征，如形狀、顏色、尺寸等，分辨是否為異常細胞［1］，計算機輔助篩查系統(tǒng)通過自動分割核質(zhì)邊界、特征提取和自動分類等方式來自動篩查異常細胞。而細胞分割作為首要任務(wù)，其精確度決定了后續(xù)分類篩查的準(zhǔn)確率，但細胞涂片中的細胞形態(tài)極其不規(guī)則，染色質(zhì)不均勻?qū)е录毎吔绮磺逦?，想要在涂片中?zhǔn)確分割出核質(zhì)是非常困難的。目前對細胞進行語義分割的方法主要有以下兩類：

（1）基于形態(tài)學(xué)的傳統(tǒng)細胞語義分割方法。2011年，Plissiti等［2］使用分水嶺與基于形態(tài)學(xué)先驗的方法，先對圖像核質(zhì)區(qū)域進行粗分割，再使用距離相關(guān)規(guī)則以及支持向量機（support vec?tor machine，SVM）的像素分類方法進行分割的細化。2015年，Chalfoun 等［3］通過計算局部對比度來檢測像素強度變化較大的區(qū)域，即可能是細胞主體的區(qū)域，再使用局部對比度閾值來分割出細胞邊界，并且使用了一種迭代算法將細胞邊緣的光暈去除。但傳統(tǒng)的分割方法只分析了底層特征，無法提取高級的結(jié)構(gòu)特征，存在精確率低、泛化能力差、效率低等問題。

（2）基于深度學(xué)習(xí)的細胞語義分割方法。隨著深度學(xué)習(xí)的快速發(fā)展，其在細胞分割領(lǐng)域中的運用越來越廣泛，深度學(xué)習(xí)避免了人工提取特征的局限，并提供更高的精確度和更快的速度，其中卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural net?works，CNN）是最常用的模型之一。2018 年，Liu 等［4］使用了一種利用像素先驗信息的神經(jīng)網(wǎng)絡(luò)Mask R?CNN（mask regional convolutional neural network），先通過基于殘差網(wǎng)絡(luò)（residual net?work）和特征金字塔（feature pyramid network）的特征提取網(wǎng)絡(luò)確定細胞的感興趣區(qū)域，再進行區(qū)域卷積獲得粗分割的掩膜圖，最后通過一個局部全連通條件隨機場對分割圖進行細化，得到了更高的準(zhǔn)確度。2021年，Roy等［5］利用一個基于編碼器-解碼器的語義分割模型DeepLabv3進行細胞分割，編碼器包含了空洞卷積與多尺度并行的空間金字塔池化模塊，可以提取豐富的語義信息，通過簡單有效的雙線性上采樣解碼器模塊進行空間信息的恢復(fù)，有效地提高了精度與運行效率。此外，DenseNet［6］、D?MEM［7］、ICPN［8］等模型也被用來提高分割性能。雖然這些算法在一定程度上提高了準(zhǔn)確率，但通常具有適應(yīng)特定任務(wù)或是數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu)特點，且數(shù)據(jù)不平衡時模型性能較差。

在眾多卷積神經(jīng)網(wǎng)絡(luò)模型中，全卷積網(wǎng)絡(luò)（fully convolutional networks）［9］是醫(yī)學(xué)圖像分割領(lǐng)域中的研究熱點之一，在各種全卷積網(wǎng)絡(luò)體系中，U?Net［10］模型是其中應(yīng)用最為泛用的模型之一。U?Net模型是一個像素到像素、端到端的網(wǎng)絡(luò)，編碼器與解碼器之間有跳躍連接層，只需要較少的訓(xùn)練數(shù)據(jù)就保留很多特征信息，然而，向標(biāo)準(zhǔn)的U?Net結(jié)構(gòu)中直接添加更多層，會使網(wǎng)絡(luò)太深，導(dǎo)致梯度消失，難以收斂。

本文受U?Net 模型的啟發(fā)，結(jié)合Inception?Res［11］結(jié)構(gòu)的優(yōu)點，采用了一個改進的端到端模型IR U?Net（Inception?Res U?Net），主要貢獻如下：①通過Inception?Res 結(jié)構(gòu)增加網(wǎng)絡(luò)寬度的同時減少了冗余計算，并能提取多尺度特征，提高網(wǎng)絡(luò)精確度；②通過使用Leaky?ReLU 減少“神經(jīng)元死亡”導(dǎo)致的網(wǎng)絡(luò)稀疏特征多、難以收斂的問題；③采用改進的損失函數(shù)Focal?Dice Loss 來解決細胞圖像部分邊界模糊、目標(biāo)區(qū)域大小差異大、學(xué)習(xí)困難的問題。

1 IR U?Net模型

本節(jié)將介紹模型的整體結(jié)構(gòu)以及內(nèi)部模塊的具體結(jié)構(gòu)，整個網(wǎng)絡(luò)以U?Net作為主干網(wǎng)絡(luò)模型，內(nèi)部多尺度特征提取與特征融合模塊為In?ceptioni?Res 結(jié)構(gòu)，模型為不包含全連接層的端到端模型，輸入輸出為分辨率相同的圖像。

1.1 模型整體結(jié)構(gòu)

圖1展示了模型的整體結(jié)構(gòu)，模型上半部分為編碼器，用于特征提取；下半部分為解碼器，用于像素還原。解碼器中上采樣的輸出將與相應(yīng)編碼器同層特征圖進行拼接，作為解碼器下一層輸入，將原始模型中編解碼器部分的3 × 3卷積模塊替換為Inception?Res模塊。

圖1 模型結(jié)構(gòu)圖

模型的輸入圖像分辨率為224 × 224，通道數(shù)為3，編碼器中最大池化層（MaxPooling）對特征圖進行下采樣，使特征圖分辨率縮小一半，經(jīng)過四個Inception 模塊和池化層后，特征圖縮小至14 × 14 的大小。解碼器部分的上采樣層（UpSampling）將特征圖分辨率還原至原來的一倍，經(jīng)過四個Inception 模塊和上采樣層后，圖像將恢復(fù)到與輸入分辨率相同，其中四次跳躍連接加強了淺層與深層特征的融合，使得分割結(jié)果更為精細。最后經(jīng)過一個包含1 × 1 卷積層與sigmod 激活層的分類器，對像素進行分類，輸出一個三通道的語義分割結(jié)果。

1.2 Inceptioni?Res 模塊

本文采用了一種改進的Inceptioni?Res 結(jié)構(gòu)，如圖2所示，該結(jié)構(gòu)與原始卷積結(jié)構(gòu)不同，使用了三個不同分支結(jié)合的卷積核，主要目的是使用不同分支不同大小的卷積核輸出一個聚合特征圖，多分支的優(yōu)點主要在于網(wǎng)絡(luò)能夠靈活調(diào)整出對訓(xùn)練有益的卷積核大小，并形成密集的聚合特征圖，配合殘差結(jié)構(gòu)，使學(xué)習(xí)效率增加。結(jié)構(gòu)中多個1 × 1 卷積核能夠改變輸入維度以減少訓(xùn)練參數(shù)，使得學(xué)習(xí)更加容易。

圖2 改進的Inceptioni?Res結(jié)構(gòu)

2 結(jié)構(gòu)與損失函數(shù)優(yōu)化

2.1 批標(biāo)準(zhǔn)化模塊

在本文模型中，每個卷積層后加入了批標(biāo)準(zhǔn)化模塊（batch?normalization）［12］，當(dāng)數(shù)據(jù)通過卷積層后，其特征分布可能會發(fā)生偏移，當(dāng)卷積層增加時，偏移會加重，這會產(chǎn)生梯度消失等現(xiàn)象，批標(biāo)準(zhǔn)化可以在保留卷積層的同時，使得數(shù)據(jù)始終保持標(biāo)準(zhǔn)正態(tài)分布，加快訓(xùn)練速度。批標(biāo)準(zhǔn)化的計算首先是對輸入數(shù)據(jù)B={x1,x2,…,xi}進行標(biāo)準(zhǔn)化：

式（2）將標(biāo)準(zhǔn)化后的數(shù)據(jù)再進行一個線性變換，雖然這里重新對數(shù)據(jù)進行偏移，但神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)變換參數(shù)γ與β來自動衡量標(biāo)準(zhǔn)化操作是否對優(yōu)化產(chǎn)生效果。

2.2 激活函數(shù)

批標(biāo)準(zhǔn)化后，使用了ReLU（rectified linear unit）激活函數(shù)的變體Leaky?ReLU［13］進行一個輸入端到輸出端的非線性映射。原始ReLU 激活函數(shù)在訓(xùn)練時，值小于0的神經(jīng)元的梯度會一直為0，容易產(chǎn)生“神經(jīng)元死亡”的問題，這樣會導(dǎo)致網(wǎng)絡(luò)稀疏特征多，難以收斂。而Leaky?ReLU函數(shù)會給負軸微小的斜率，使得神經(jīng)元的梯度不會完全消失，如圖3所示。

圖3 ReLU函數(shù)與Leaky?ReLu函數(shù)

Leaky?ReLU函數(shù)的表達式如下：

其中：k為一個固定參數(shù)且k∈(0,1)，一般取0.01［13］。

2.3 改進損失函數(shù)

語義分割常用的損失函數(shù)為交叉熵損失函數(shù)（cross entropy loss）與Dice 系數(shù)損失函數(shù)［14］，公式如下：

其中：M為類別數(shù)量，當(dāng)樣本i的真實類別為c，則yic取1，否則取0，pic為樣本i屬于類別c的預(yù)測概率。

其中：y為真實標(biāo)簽；p為預(yù)測概率；c為類別；ε為平滑系數(shù)。

何凱明等［15］提出了改進的交叉熵損失函數(shù)焦點損失（Focal Loss），公式如下：

其中：

α、γ均為調(diào)節(jié)因子，且α∈[0,1]，γ>0，α用來調(diào)節(jié)正樣本損失的重要程度，γ用來調(diào)節(jié)難樣本損失的重要程度。

交叉熵損失會對圖像中所有的像素點進行平等地計算，若圖像中存在區(qū)域非常小的像素類別，則容易被大范圍的背景區(qū)域干擾，導(dǎo)致分割不準(zhǔn)確。Dice 損失函數(shù)是一個區(qū)域相關(guān)的損失函數(shù)，損失值不受背景區(qū)域大小的影響，所以Dice 損失函數(shù)善于挖掘前景區(qū)域，相比于交叉熵損失函數(shù)，更適用于類別不平衡的情況。本文通過焦點損失與Dice 損失函數(shù)結(jié)合解決數(shù)據(jù)不平衡的問題。改良的損失函數(shù)公式如下：

其中：wc為c類別的權(quán)重；β為調(diào)節(jié)因子，且β∈(0,1)，使得模型更加關(guān)注Dice 損失較小的樣本，本文中β一般取0.5。

3 實驗結(jié)果及分析

本節(jié)將介紹實驗數(shù)據(jù)、預(yù)處理過程、評價指標(biāo)、與其他分割算法的性能對比實驗分析以及展示模型各模塊影響的消融實驗分析。

3.1 實驗數(shù)據(jù)與預(yù)處理

本文的實驗均在公開的Herlev 宮頸細胞數(shù)據(jù)集［16］上進行，該數(shù)據(jù)集是由丹麥赫列夫大學(xué)醫(yī)院（Herlev university hospital）采集的樣本制作而成，其具體組成如表1所示。

表1 Herlev宮頸細胞數(shù)據(jù)集組成

該數(shù)據(jù)集由917 張單個宮頸細胞圖像組成，共有七類細胞，每一張圖像都對應(yīng)著一張語義標(biāo)注GT（groud truth）圖像，如圖4 所示，所有的類別以及GT 圖都是由權(quán)威專家人工標(biāo)注得來，GT 圖像中淺藍色區(qū)域代表細胞核，深藍色區(qū)域代表細胞質(zhì)，灰色區(qū)域代表細胞ROI（region of interest），紅色區(qū)域為背景區(qū)域。圖像的分辨率為0.201微米/像素，平均大小為156 × 140像素。其中最長邊達到768 像素，而最短邊僅有32 像素，尺寸差異范圍較大。

圖4 Herlev數(shù)據(jù)集部分圖像

由于數(shù)據(jù)集每張圖像大小形狀不一，為了在統(tǒng)一輸入尺寸的同時不改變分割區(qū)域的相對位置，在輸入模型前對圖像進行零填充，并將分辨率大小統(tǒng)一調(diào)整為224 × 224 像素。同時，本文采用基于像素的語義分割，GT 圖中的細胞主體都在其ROI內(nèi)，無需先確定細胞的ROI，所以將ROI 并入背景中，最終的語義圖像共有三類像素，分別為細胞核、細胞質(zhì)與背景區(qū)域，圖5為數(shù)據(jù)處理前后對比。

圖5 圖像處理前后對比

為了便于訓(xùn)練，將像素進行編碼，表2為本文訓(xùn)練所使用的像素類別索引。

表2 像素類別索引

深層網(wǎng)絡(luò)的訓(xùn)練通常需要大量數(shù)據(jù)進行學(xué)習(xí)，否則容易產(chǎn)生過擬合，但醫(yī)學(xué)圖像數(shù)據(jù)難以獲取，本文使用的公開數(shù)據(jù)集僅有917 張圖像，因此本文對現(xiàn)有數(shù)據(jù)集進行旋轉(zhuǎn)、水平或垂直翻轉(zhuǎn)等仿射變換，將數(shù)據(jù)量擴充至原來的六倍，使得模型具有更好的泛化能力。

3.2 評價指標(biāo)

為了對語義分割結(jié)果進行評估，本文采用平均像素精度（mean pixel accuracy,MPA）與平均交并比（mean intersection over union,MIoU）作為評價指標(biāo)，公式如下：

其中，假設(shè)共有k+1 個類別（0,1,…,k），pii表示類別為i的像素預(yù)測正確的數(shù)目，pij表示類別為i的像素被預(yù)測為j的數(shù)目，pji代表類別為j的像素被預(yù)測為i的數(shù)目。平均像素精度為每個類別中分類正確的像素總數(shù)與每個類別的像素總數(shù)之比的均值，平均交并比為每個類別真實標(biāo)簽與預(yù)測結(jié)果之間交集與并集像素數(shù)量比值的均值，上述指標(biāo)在用于評價分割模型性能時，值越大代表性能越好。

3.3 實驗結(jié)果分析

本文仿真實驗平臺為Windows 10，處理器為Intel i3?8100 CPU，12 GB 內(nèi) 存，顯卡為NVIDIA GeForce RTX 2070，8 GB 顯存，在機器學(xué)習(xí)平臺Tensorflow 1.13.1 上進行網(wǎng)絡(luò)訓(xùn)練，優(yōu)化方法采用的是Adam 優(yōu)化器（adaptive moment estimate optimizer），迭代次數(shù)為100 次，批量大小為4，初始學(xué)習(xí)率為0.001，數(shù)據(jù)集按照3∶1劃分為訓(xùn)練集和測試集，使用擴充后的數(shù)據(jù)集進行訓(xùn)練，輸入訓(xùn)練圖像為4126張。

圖6 對比了FCN、U?Net 以及本文模型的損失值情況，其中FCN 模型穩(wěn)定性差，U?Net模型收斂后的Loss 值比本文模型更大，本文模型收斂速度更快、更穩(wěn)定，其精確度有一定的提升。

圖6 三種模型訓(xùn)練過程中的Loss值對比

本文選擇了FCN［9］、U?Net［10］、Attention U?Net［17］、U?Net++［18］這幾種分割網(wǎng)絡(luò)與本文的改進模型進行對比，探究改進模型的優(yōu)越性。表3展示了各個模型使用不同激活函數(shù)時，在測試集中的精度指標(biāo)與完成整個測試集所用的時間。本組實驗使用的是改進的Focal?Dice 損失函數(shù)。從表3 結(jié)果可以看出，本文改進的模型相比于FCN 和U?Net，精確度分別提高了34.2%和13.7%，這是因為FCN 與U?Net 的特征提取與特征融合能力不足，無法有效利用編碼器提取到的特征。相比于另外兩種流行的U?Net改進網(wǎng)絡(luò)也提升了3.1%和0.6%。本文模型在測試時間上，雖相較FCN 與U?Net 模型多出了21.2%和12.7%，但其精確度卻提高了34.1%和13.6%，具有更好的性能。

表3 多種模型分割指標(biāo)對比

另外，細胞核的特征中往往包含著更多可用信息［1］，能將細胞核準(zhǔn)確地分割出來具有一定的意義。本文在細胞核的分割上與近年來一些相關(guān)研究進行橫向比較（見表4），發(fā)現(xiàn)本文在細胞核這一類像素的分割上也提升了0.1%～1.5%。

表4 多種模型的細胞核分割指標(biāo)對比

本文改進的損失函數(shù)中，權(quán)重因子的變化也會導(dǎo)致分割結(jié)果的變化，通過設(shè)置不同的權(quán)重因子來探究其對分割結(jié)果的影響。首先是類別權(quán)重，圖7展示了數(shù)據(jù)集中各個類別像素個數(shù)的均值，細胞核、細胞質(zhì)、背景的比值接近于1∶2∶3，所以本文將類別權(quán)重設(shè)置為w0∶w1∶w2=1∶2∶3。

圖7 數(shù)據(jù)集每個類別像素的平均數(shù)量

表5 展示了不同w與β值下本文模型的指標(biāo)。從結(jié)果來看，將w比值設(shè)置為1∶2∶3 時，相比于均衡的權(quán)值，僅在β取0.25時精確度有所下降，β取0.5 與0.75 時，精確度分別提升了0.1%和0.6%。當(dāng)β取0.5 時模型效果稍好，相比于另外兩個取值所對應(yīng)的精確度提升了0.1%和0.4%，所以本文將默認設(shè)置β為0.5。

表5 不同w和β值對模型的影響

為探究不同損失函數(shù)對模型性能的影響，本文在不同模型分別使用交叉熵損失、Dice 損失、Focal 損失以及本文改進的損失函數(shù)之間進行對比試驗。表6 展示了各個模型在不同損失函數(shù)下的分割效果，結(jié)果表明改進的Focal?Dice 損失函數(shù)相比交叉熵損失精確率提升了0.5%～3.5%，相比Dice 損失精確率提升了0.2%～5.6%，相比Focal 損失精確率提升了0.4%～1.4%。由于本文數(shù)據(jù)集的類別不平衡，單一損失函數(shù)很難衡量訓(xùn)練時類別的重要性，當(dāng)訓(xùn)練細胞核這類數(shù)量較少的類別時，很容易被其他類別所影響，改進的損失函數(shù)針對這一點進行優(yōu)化，使模型能夠更好地關(guān)注于類別少且難分類的像素點。

表6 不同損失函數(shù)對多種模型的影響

3.4 消融實驗分析

為了驗證本文改進方法的可行性，將三個改進模塊進行單獨實驗，探究每個模塊各自對模型性能的影響，在相同數(shù)據(jù)集上進行相應(yīng)的消融實驗。

表7 中第一行實驗數(shù)據(jù)為原U?Net 模型下的分割精度，其效果達不到期望。第二行實驗數(shù)據(jù)表明，在加入Inception?Res 模塊后，各項指標(biāo)分別提升了3.8%、11.6%和1.0%，結(jié)果優(yōu)于原模型，這表明該模塊對模型性能提升有所幫助。第三、四行實驗數(shù)據(jù)中，分別再加上Leaky?ReLU 與Focal?Dice模塊，兩者使得模型的MPA分別提升了1.8%和2.3%，MIoU分別提升了1.3%和3.2%，由此證明了這兩個模塊對模型性能提升的有效性。

表7 不同模塊對網(wǎng)絡(luò)性能的影響

3.5 結(jié)果可視化

本文使用的所有網(wǎng)絡(luò)分割結(jié)果的可視化如圖8所示，結(jié)果表明，F(xiàn)CN模型由于特征提取與像素還原能力低，細胞邊緣細節(jié)刻畫效果不佳，細胞核尚未完全分割出來，整體效果非常粗糙，U?Net 模型存在同樣問題，雖然在細胞核分割上優(yōu)于FCN，但其邊緣細節(jié)仍然未劃分出來，受背景影響嚴(yán)重。Attention U?Net 與U?Net++模型在細胞核刻畫上效果與本文模型相差不大，但細胞質(zhì)邊緣區(qū)域分割效果仍然不佳。相比之下，本文的改進模型能夠有效地分割出細胞核質(zhì)區(qū)域，對細胞主體的刻畫優(yōu)于其他幾種模型，具有較好的效果，分割能力明顯提升，且在樣本不均衡，即細胞區(qū)域較小時也能達到較好的分割效果。

圖8 各模型分割可視化結(jié)果

4 結(jié)語

目前宮頸細胞分割領(lǐng)域存在一定的問題，本文在U?Net結(jié)構(gòu)的基礎(chǔ)上，結(jié)合了多尺度卷積與殘差連接的Inception 結(jié)構(gòu)，加寬網(wǎng)絡(luò)的同時避免了梯度消失，并使用改進的損失函數(shù)獲得了較好的分割效果。結(jié)果表明改進的模型相比于目前常用模型均有精度提升，改進的損失函數(shù)相比原始損失函數(shù)在對模型精度提升方面更為優(yōu)越，模型整體的分割結(jié)果與專業(yè)人員標(biāo)記接近，具有一定的現(xiàn)實意義。