魯浩達(dá),徐軍,劉利卉,周超,周曉軍,張澤林
(1.南京信息工程大學(xué),江蘇省大數(shù)據(jù)分析技術(shù)重點實驗室,南京 210044;2.南京軍區(qū)南京總醫(yī)院,南京 210044)
腎癌是泌尿系統(tǒng)腫瘤中致死率最高的一種,其發(fā)病率和死亡率約占全部腫瘤的2%。在病理上,腎癌通常分為:透明細(xì)胞型腎癌、顆粒細(xì)胞型腎癌、混合細(xì)胞型腎癌、未分化細(xì)胞型腎癌。其中,腎透明細(xì)胞癌(clear cell renal cell carcinoma,ccRCC)是腎癌中最常見的一種亞型。但臨床實際中腎透明細(xì)胞癌的癌細(xì)胞常排列成片狀、條索狀、腺泡狀或管狀,很像腎小管,單純以病理醫(yī)生人工的方式在顯微鏡下對其進(jìn)行分級診斷其實非常困難。所以,運用計算機(jī)圖像分析技術(shù)對腎透明細(xì)胞癌病理圖像中的細(xì)胞核進(jìn)行有效地、準(zhǔn)確地分割,是當(dāng)前分析腎癌惡性程度、構(gòu)建腎癌自動分級系統(tǒng)的迫切需求。
然而,組織病理圖像具有高度復(fù)雜性,對數(shù)以千計的細(xì)胞核進(jìn)行分割具有如下的難度:
(1)高分辨率組織病理圖像尺寸大。圖1(ad)分別展示了一張腎透明細(xì)胞癌全掃描切片在顯微鏡不同分辨率下的圖像。其中圖1(a)是全掃描組織病理圖像,其尺寸為40001×28514個像素,壓縮后約為3.2 GB;圖1(b)、圖1(c)、圖1(d)分別是前一幅圖中紅色區(qū)域放大10、20、40倍數(shù)后的圖像。
(2)組織病理結(jié)構(gòu)類型復(fù)雜。見圖1(d),圖中不規(guī)則地分布著的許多類似紡錘狀的深色結(jié)構(gòu)為細(xì)胞核,數(shù)量繁多并且形態(tài)差異性非常大,難以用固定的特征來描述。
圖1 4種放大倍數(shù)下的圖像Fig 1 Four kinds of image magnification
在這種高分辨率圖像中運用計算機(jī)自動分割細(xì)胞核,對硬件和圖像分析算法都有較大的挑戰(zhàn)。
目前,主動輪廓模型[1]、分水嶺模型[2]和區(qū)域增長模型[3]是三個常見且有效的細(xì)胞核分割模型,其中主動輪廓模型使用頻率較大,主要原因是它可以很好的擬合目標(biāo)的邊界,但是模型的分割效果很大程度上依賴于檢測到的細(xì)胞核位置給出的初始輪廓,細(xì)胞核檢測效果的好壞對最終的分割效果有很強(qiáng)的制約作用。因而在細(xì)胞分割方面仍需要投入更多的研究。
近年來,深度學(xué)習(xí)方法開始被廣泛地運用于組織病理圖像分析。Ciresan等人[4]運用深度卷積神經(jīng)網(wǎng)絡(luò)(CN)來檢測乳腺組織病理圖像中的有絲分裂現(xiàn)象。Ertosun等人[5]運用CN對腦組織病理圖像進(jìn)行腦膠質(zhì)瘤自動化分級。徐軍等人[6]運用CN對乳腺組織病理圖像進(jìn)行上皮和基質(zhì)區(qū)域的自動分割。Sirinukunwattana等人[7]運用CN對結(jié)直腸癌組織病理圖像進(jìn)行腺體的自動分割和良惡性分類。
目前,運用深度學(xué)習(xí)的方法在腎癌病理圖像中的分析工作尚無具體發(fā)表的結(jié)果。在腎透明細(xì)胞癌病理圖像中,細(xì)胞核存在異型性并且細(xì)胞核數(shù)量繁多。本研究針對這一問題,提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的細(xì)胞核分割模型。
表1列出了本研究所使用的縮寫符號及其解釋。
表1 本研究中所使用的縮寫符號及其描述Table 1 The abbreviations used in this article and their descriptions
本研究的網(wǎng)絡(luò)結(jié)構(gòu)是基于Krizhevsky等人[8]提出的經(jīng)典的AlexNet模型,其網(wǎng)絡(luò)結(jié)構(gòu)見圖2。該模型主要包括卷積層,池化層[9],線性糾正(rectified linear unit,ReLU)激活函數(shù)[10],全連接層以及 softmax(SMC)分類器。關(guān)于卷積層、池化層、線性糾正激活函數(shù)的詳細(xì)介紹,請參考文獻(xiàn)[8]。卷積層通過多個卷積核對圖像進(jìn)行卷積操作后得到特征映射圖。為了避免飽和非線性問題,本研究采用ReLU激活函數(shù),見公式(1)。
本研究采用最大池化的方法,把輸入的圖像分割成為不重疊的局部感受域,對每一個局部感受域都輸出最大值,靈活地降低了數(shù)據(jù)的維度。全連接層的目標(biāo)是將前一層輸出的特征連接成一個向量作為后一層的輸入。通過全連接層連接SMC分類器作為輸出層,本研究使用的基于二分類的SMC,它是一個監(jiān)督性的logistic回歸模型。網(wǎng)絡(luò)的輸出端的神經(jīng)元個數(shù)等于類的個數(shù),因此對于輸入的第i個圖像塊的特征x(i),SMC輸出可以看做一個二維的向量:
其中SMC的輸入x(i)是CN提取的高水平的特征。θj是由SMC模型通過訓(xùn)練學(xué)習(xí)分別得到的兩個輸出神經(jīng)元的參數(shù)。每個圖像塊通過CN提取出高水平特征x(i)輸入到SMC中,SMC會輸出一個二維的概率值,網(wǎng)絡(luò)將通過給出分別屬于兩類的二維概率值中較大的那類作為分類最終結(jié)果。
圖2 本研究使用的網(wǎng)絡(luò)結(jié)構(gòu)Fig 2 The structure of network convolutional networks used in this paper
本研究所做的實驗使用的操作系統(tǒng)和硬件設(shè)備如下:Linux系統(tǒng):Ubuntu 14.04;處理器:Intel(R)Core(TM)i7-3770 CPU@3.40 GHz;內(nèi)存(RAM):16.0 GB;獨立顯卡:GeForce GTX Titan X;開發(fā)工具:MATLAB R2014b,Caffe框架[11]。
本研究采用的腎透明細(xì)胞癌數(shù)據(jù)是來自美國癌癥基因組圖譜的信息中心(TCGA)[12]。從TCGA中挑選出461張H&E染色的病理圖像,圖像是在40倍目鏡下掃描拍攝的,尺寸為400×400像素。
為了實現(xiàn)逐像素點分割,本研究構(gòu)建的訓(xùn)練集包括兩種類型的圖像塊:細(xì)胞塊和非細(xì)胞塊。兩類訓(xùn)練集的構(gòu)建方法見圖3。根據(jù)專家標(biāo)記(見圖3(a))提取其中對應(yīng)的細(xì)胞核邊界進(jìn)行腐蝕和膨脹操作,并根據(jù)專家標(biāo)記(見圖3(a))將腐蝕和膨脹后的邊界區(qū)域劃分為細(xì)胞核區(qū)域和非細(xì)胞核區(qū)域(見圖3(b))。最后,以圖3(b)中所有綠色區(qū)域的像素點為中心取尺寸為39×39的正方形小塊作為細(xì)胞塊,以紅色區(qū)域的像素點為中心取尺寸為39×39正方形小塊作為非細(xì)胞塊。本研究還考慮到訓(xùn)練集樣本中冗余小塊的數(shù)量,隨機(jī)丟棄部分小塊。除了邊緣區(qū)域附近提取的小塊以外,同時也在細(xì)胞核內(nèi)部和間質(zhì)背景部分選取大量的相同尺寸的兩種類型的圖像塊。其中,本研究使用的訓(xùn)練集和測試集的圖像塊的數(shù)量見表2。
圖3 細(xì)胞核分割訓(xùn)練集構(gòu)建示意圖Fig 3 The Illustration of construction of Nuclear Segmentation Training Set
本研究采用的詳細(xì)的實驗步驟如下:
(1)構(gòu)建訓(xùn)練集和測試集。構(gòu)建方法和數(shù)量已在3.3節(jié)中闡明。
(2)訓(xùn)練CN-PI模型。構(gòu)建圖2的CN模型,運用上一步驟中獲得的訓(xùn)練集,訓(xùn)練該CN網(wǎng)絡(luò)。
表2 訓(xùn)練和測試樣本的數(shù)量Table 2 The number of training and testing samples
(3)細(xì)胞核分割測試。運用滑動窗的方法提取測試集圖像塊,對整張圖進(jìn)行逐像素點分割。首先,從每幅圖像的左上角第一個像素開始,以此像素為中心像素點,取尺寸為39×39的圖像塊,送進(jìn)步驟2中訓(xùn)練好的網(wǎng)絡(luò)中去分類,網(wǎng)絡(luò)輸出得到的類別即代表此中心像素點的類別。測試時,從左到右、從上往下,使得滑動窗的中心像素遍歷整幅圖像,完成對整幅圖像的逐像素點分割。
為了體現(xiàn)本研究方法在細(xì)胞核分割準(zhǔn)確度上的優(yōu)越性,實驗中用了3種其他方法進(jìn)行對比,見表3。
表3 對比方法名稱Table 3 The names of contrast methods
針對細(xì)胞核分割的結(jié)果,本研究采用以下四個定量評估指標(biāo)[16]:
(3)區(qū)域交集mean IU:
(4)加權(quán)區(qū)域交集frequency weight IU:
其中nji表示在圖像標(biāo)記中屬于類型i卻被預(yù)測為類型j像素點數(shù)量,nc表示類型的總數(shù),ti表示在圖像標(biāo)記中屬于類型i的所有像素點的數(shù)量。像素準(zhǔn)確率由細(xì)胞核分割模型預(yù)測正確的像素點與全圖所有像素點的比值組成;平均像素準(zhǔn)確率所計算的是細(xì)胞核分割模型預(yù)測各類別像素點與實際標(biāo)記類別像素點數(shù)量的比值的平均值;區(qū)域交集計算了細(xì)胞核分割模型預(yù)測正確的每類像素點與錯誤預(yù)測的像素點比值的平均值;加權(quán)區(qū)域交集是在計算區(qū)域交集時添加了每個類型像素點所占圖像所有像素點的權(quán)重。
4.3.1 定性的實驗結(jié)果 圖4展示了腎透明細(xì)胞癌病理組織圖像和細(xì)胞核的專家標(biāo)記。圖4(a)是一幅病理組織圖像原圖,圖中不規(guī)則的分布著許多類似紡錘狀的深色結(jié)構(gòu)即細(xì)胞核;專家標(biāo)記的細(xì)胞核輪廓見圖4(b)。
圖4 (a)腎透明細(xì)胞癌病理圖像(b)病理醫(yī)生標(biāo)記Fig 4 (a)Pathological image of ccRCC(b)Ground truth from pathologist
圖5展示了本研究方法與其他三種細(xì)胞核分割方法的分割結(jié)果,圖5中下行四幅分割結(jié)果圖為二值化的細(xì)胞核分割結(jié)果,上行四幅分割結(jié)果圖中綠色的部分是二值化的細(xì)胞核分割結(jié)果在原圖上的突出展示。圖5(a)為本研究提出方法的分割結(jié)果圖;圖5(b)為 GLGF方法的分割結(jié)果圖;圖 5(c)為LATB方法的分割結(jié)果圖;圖5(d)為GC方法的分割結(jié)果圖。仔細(xì)研究四幅分割結(jié)果,對比圖5(b)可以看出,GLGF方法在分割細(xì)胞核時可以將圖像中大部分細(xì)胞核都分割出來,但是仔細(xì)觀察發(fā)現(xiàn),出現(xiàn)很多漏檢的細(xì)胞核,并且細(xì)胞核的邊界分割不夠準(zhǔn)確,出現(xiàn)區(qū)域膨脹的現(xiàn)象;對比圖5(c)可以看出,與LATB方法的分割結(jié)果相比,本研究方法具有更高的準(zhǔn)確率,不會丟失大部分目標(biāo),也不會對一個細(xì)胞核的分割時會只分割出一半的不良狀況;對比圖5(d)可以看出,GC方法雖然將大部分細(xì)胞核分割出來,但細(xì)胞核邊界粗糙,而且包含大量不相關(guān)間質(zhì)背景區(qū)域。
綜上,從細(xì)胞核分割的定性結(jié)果分析來看,本研究提出的CN-PI模型對腎透明細(xì)胞癌的細(xì)胞核分割具有更好的效果。
圖5 四種方法的分割結(jié)果對比Fig 5 The comparison of the four methods’results
4.3.2 定量的實驗結(jié)果
表4對比了本研究方法和其它3種方法的像素準(zhǔn)確率、平均像素準(zhǔn)確率、區(qū)域交集和加權(quán)區(qū)域交集。見圖6,把上述四個評估指標(biāo)以直方圖的形式呈現(xiàn)出來,直方圖的高低程度直觀地展示出了這四種方法的細(xì)胞核分割性能。
表4 不同方法的細(xì)胞分割結(jié)果的定量評估(%)Table 4 Quantitative assessments of cell segmentation results by different methods(%)
從定量結(jié)果分析表明,本研究CN-PI模型呈現(xiàn)出明顯的優(yōu)勢,像素準(zhǔn)確率達(dá)到了90.33%,說明CN-PI模型在腎透明細(xì)胞癌的細(xì)胞核分割上具有良好的性能。
圖6 四種方法的準(zhǔn)確率直方圖Fig 6 The histogram of four methods’accuracy
本研究提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的逐像素點分割(CN-PI)模型,我們把CN-PI與 GLGF、LATB、GC這3種傳統(tǒng)分割方法在分割細(xì)胞核的性能上做了對比,CN-PI模型在分割準(zhǔn)確率上具有較明顯的優(yōu)勢。不過,CN-PI模型在分割的過程中,由于以待分割圖像的每個像素點為中心像素構(gòu)造的圖像塊都需要輸入到CN中進(jìn)行預(yù)測,因此,如果圖像尺寸特別大,將需要耗費較長時間。CN-PI模型的這個不足還有待在未來的模型中加以改進(jìn)。未來的工作擬將腎透明細(xì)胞癌細(xì)胞核的分割結(jié)果運用于腎癌的良惡性分級的研究中,從而實現(xiàn)基于組織病理圖像計算的腎癌自動診斷分級系統(tǒng)。