李 偉,孫星星,戶媛姣
(長(zhǎng)安大學(xué) 信息工程學(xué)院,西安 710064)
在人工智能技術(shù)日趨成熟的今天,人們將人工智能技術(shù)越來(lái)越多的應(yīng)用在各個(gè)領(lǐng)域.AI+醫(yī)療是當(dāng)下最火熱的人工智能應(yīng)用場(chǎng)景之一,并且AI 在乳腺癌,糖尿病等預(yù)防和治療方面,創(chuàng)造了諸多突破和成就.宮頸癌發(fā)病率高,且病變周期長(zhǎng),早期發(fā)現(xiàn)治療效果好[1,2],目前臨床檢測(cè)仍為人工篩選,耗時(shí),昂貴且準(zhǔn)確率低[3].前期篩查是對(duì)癌變進(jìn)行預(yù)防和控制的關(guān)鍵途徑[4,5].我國(guó)宮頸癌早期普查工作量十分繁重,然而病理醫(yī)生數(shù)量卻嚴(yán)重不足.因此,采用AI 技術(shù)進(jìn)行宮頸細(xì)胞病理輔助診斷在癌前病變?cè)\斷中具有重要意義[6].
2009年,Pan SJ 等[7]提出了一種元啟發(fā)式算法進(jìn)行宮頸細(xì)胞分類,將遺傳算法與KNN 相結(jié)合,從宮頸細(xì)胞圖像中構(gòu)建了20 個(gè)特征,使用遺傳算法進(jìn)行最優(yōu)特征子集的選取,使KNN 算法進(jìn)行分類,并證明了有效性.2014年,Chankong 等[8]提出一種宮頸癌細(xì)胞自動(dòng)分割和分類的方法,利用FCM 聚類技術(shù)將單細(xì)胞圖像分割為細(xì)胞核,細(xì)胞質(zhì),并進(jìn)行特征提取,利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,并與其他分類器結(jié)果進(jìn)行比較,證明了人工神經(jīng)網(wǎng)絡(luò)的分類效果與其他分類器相比,精度較高.2015年,Kaaviya 等[9]提出了一種新的分類方法對(duì)宮頸細(xì)胞進(jìn)行分類.為了提高宮頸細(xì)胞分類結(jié)果,采用集成方法,集成了3 個(gè)分類器的決策,并使用五折交叉驗(yàn)證進(jìn)行評(píng)估.
2010年,暨南大學(xué)的范金坪[10]提出基于矢量量化的C-V 模型進(jìn)行彩色宮頸圖像分割,利用遺傳算法進(jìn)行特征選擇,BP 神經(jīng)網(wǎng)絡(luò)算法進(jìn)行原始特征子集以及最優(yōu)特征子集分類,驗(yàn)證特征選擇的有效性.2018年,四川大學(xué)的繆欣等[11]提出了基于神經(jīng)網(wǎng)絡(luò)集成模型的宮頸細(xì)胞分類算法,集成神經(jīng)網(wǎng)絡(luò)相對(duì)于單個(gè)神經(jīng)網(wǎng)絡(luò)誤識(shí)別率明顯下降.2018年,胡卉等[12]提出了基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)宮頸細(xì)胞進(jìn)行分類.驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)用于宮頸細(xì)胞分類的可行性.
基于以往研究學(xué)者對(duì)宮頸細(xì)胞識(shí)別方法的研究,可以總結(jié)出傳統(tǒng)的算法都是先經(jīng)過(guò)細(xì)胞分割,其次從分割后的圖像中人工提取細(xì)胞圖像的特征,然后設(shè)計(jì)算法進(jìn)行特征降維等操作,最后選取合適的分類器進(jìn)行識(shí)別[13-15].此類方法通常要求在分割階段有較高的分割準(zhǔn)確率,否則會(huì)對(duì)后續(xù)的特征提取產(chǎn)生影響,其次選擇特征提取需要人工來(lái)決定,這就使得研究人員首先具備一定的病理知識(shí),盡管如此,人工選取的特征也不一定具有代表性,這就導(dǎo)致識(shí)別效果不好.基于此,本文因此采用深度學(xué)習(xí)算法中的DCNN 來(lái)進(jìn)行特征提取[16],以及細(xì)胞識(shí)別分類的研究[17,18].DCNN 將卷積計(jì)算同BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合的神經(jīng)網(wǎng)絡(luò),具有特征自動(dòng)特取以及分類識(shí)別的功能[19].卷積的引入使其能夠感知圖像局部細(xì)節(jié)[20,21],提取數(shù)據(jù)的局部特征,其權(quán)值共享的特性減少了網(wǎng)絡(luò)參數(shù)運(yùn)算量[22],且無(wú)需考慮圖像中特征出現(xiàn)的位置,因此,其在圖像識(shí)別領(lǐng)域具有顯著的優(yōu)勢(shì)[23].基于此,本文將采用深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行宮頸細(xì)胞圖像識(shí)別,以解決特征提取不完善的問(wèn)題,從而提高宮頸細(xì)胞圖像識(shí)別的準(zhǔn)確率以及效率,實(shí)現(xiàn)智能化識(shí)別.
針對(duì)宮頸細(xì)胞自動(dòng)分類的研究過(guò)程,主要分為圖像集的預(yù)處理,模型的選取,模型的訓(xùn)練以及模型的測(cè)試.在圖像集的預(yù)處理階段,對(duì)圖像進(jìn)行灰度化,去噪增強(qiáng)等操作[24],接著對(duì)處理后的圖強(qiáng)提取ROI 區(qū)域,并根據(jù)神經(jīng)網(wǎng)絡(luò)的輸入要求統(tǒng)一尺寸.
在模型選取階段,本文采用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)宮頸圖像進(jìn)行分類,卷積神經(jīng)網(wǎng)絡(luò)是一種具有不同功能網(wǎng)絡(luò)層的深度學(xué)習(xí)算法,其分為輸入層,特征提取層,以及分類結(jié)果輸出層[25].
輸入層一般是帶有分類標(biāo)簽的圖像數(shù)據(jù),需要根據(jù)不同網(wǎng)絡(luò)的要求來(lái)統(tǒng)一尺寸[26].在這一層一般是要對(duì)輸入的圖像數(shù)據(jù)進(jìn)行預(yù)處理,使之適應(yīng)網(wǎng)絡(luò)計(jì)算要求.常用的預(yù)處理分為:去均值,歸一化,PCA 降維.
特征提取層包含卷積層,激勵(lì)層,池化層.卷積層采用類似滑動(dòng)濾波器一樣的滑動(dòng)窗口對(duì)圖像進(jìn)行特征提取,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征,且局部權(quán)重共享[27].權(quán)值共享減少了網(wǎng)絡(luò)參數(shù)運(yùn)算量,降低了模型的復(fù)雜性,且無(wú)需考慮圖像中特征出現(xiàn)的位置.激勵(lì)層的主要作用是將卷積層的輸出結(jié)果做一個(gè)非線性的映射,一般采用ReLU 函數(shù)作為激勵(lì)層的激活函數(shù),它具有收斂速度快,且梯度計(jì)算簡(jiǎn)單的特點(diǎn).池化層處于兩個(gè)相連的卷積層中間,用于壓縮傳輸數(shù)據(jù)與參數(shù),減小分類過(guò)程中出現(xiàn)過(guò)擬合[28].池化的方法一般分為平均池化和最大池化,本文采用最大池化的方法進(jìn)行壓縮傳輸圖像.池化層在卷積神經(jīng)網(wǎng)絡(luò)中的作用是用來(lái)識(shí)別經(jīng)過(guò)位移,縮放變換以及其他形式扭曲且不發(fā)生性質(zhì)變化的圖像[29].
分類結(jié)果輸出層即特征映射層,由圖像特征與圖像類別變遷的映射關(guān)系,本文采用Sigmoid 函數(shù)作為輸出層的激活函數(shù).Sigmoid 函數(shù)的輸出范圍在(0,1)之間,具有指數(shù)函數(shù)的平滑性,在分類輸出結(jié)果中,越接近于1,說(shuō)明該類的可能性越大.Sigmoid 函數(shù)使得特征映射具有位移不變性[30].
本文選取VGG16 網(wǎng)絡(luò)作為基礎(chǔ)模型來(lái)進(jìn)行改進(jìn),VGG 卷積神經(jīng)網(wǎng)絡(luò)是2014年被提出的,其在圖像分類以及圖像檢測(cè)中表現(xiàn)很好,并在2014年ILSVRC 比賽中取得了很好的成績(jī),其準(zhǔn)確率達(dá)到了92.3%.在VGG模型中,VGG-16 表現(xiàn)良好,且應(yīng)用較多,它是一個(gè)具有16 層深度的模型,模型結(jié)構(gòu)如圖1所示.
圖1 CNN 模型圖
在模型訓(xùn)練階段,由于宮頸細(xì)胞圖像的數(shù)量較少,為了提高分類準(zhǔn)確率,本文采用遷移學(xué)習(xí)的方法對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,采用ImageNet 數(shù)據(jù)集訓(xùn)練模型,將得到的模型參數(shù)作為宮頸細(xì)胞分類模型的初始化參數(shù),由于ImageNet 是一個(gè)具有1000 類的數(shù)據(jù)集,而宮頸細(xì)胞的分類只有7 類,所以將原始模型的特征映射層Softmax 層進(jìn)行修改,并對(duì)全連接層參數(shù)進(jìn)行調(diào)整,以加快收斂速度,提高準(zhǔn)確率.模型如圖2所示.
圖2 網(wǎng)絡(luò)訓(xùn)練過(guò)程
在模型測(cè)試階段,對(duì)于訓(xùn)練好的模型,將測(cè)試集輸入模型,得出分類準(zhǔn)確率.
本文采用的宮頸細(xì)胞數(shù)據(jù)集為公開的HerLev 圖像集,該圖像集是通過(guò)數(shù)碼相機(jī)和顯微鏡在赫列夫大學(xué)醫(yī)院制作的.圖像分辨率是0.201 μm/像素.Herlev 的數(shù)據(jù)集共包含917 幅圖像,每幅圖像包含一個(gè)子宮頸細(xì)胞,分為7 類,這7 個(gè)類屬于兩大類別:類1~3 為正常,類4~7 為異常類,每一類的數(shù)據(jù)情況如表1所示.其中每個(gè)類別的確定由兩名細(xì)胞技術(shù)人員和一名醫(yī)生共同診斷,這樣以最大限度地提高診斷的準(zhǔn)確性,避免個(gè)人主觀帶來(lái)的誤差.
圖3為宮頸細(xì)胞數(shù)據(jù)集中部分細(xì)胞的例子,圖3(a)-圖3(g)為正常細(xì)胞到異常細(xì)胞,可以看出,異常細(xì)胞相比較正常細(xì)胞細(xì)胞核明顯增大,且顏色變深,核質(zhì)比明顯變大可見(jiàn),但是相鄰種類的細(xì)胞變化較小,比如圖3(e)與圖3(f)外觀相似,這對(duì)于CNN 來(lái)說(shuō),要想分辨兩類,是有相當(dāng)大的難度.
表1 HerLev 數(shù)據(jù)集介紹
圖3 宮頸細(xì)胞圖像
(1)提取ROI 區(qū)域
由于網(wǎng)絡(luò)需要統(tǒng)一大小的圖片輸入尺寸,而HerLev 數(shù)據(jù)中的尺寸大小不一,且長(zhǎng)寬比差均很大.若依照傳統(tǒng)方法改變圖像尺寸,會(huì)導(dǎo)致圖像內(nèi)部特征改變,從而影響分類效果且分類模型不具有普適性,因此本文采取提取ROI 區(qū)域的方式進(jìn)行適應(yīng)網(wǎng)絡(luò)尺寸.宮頸細(xì)胞不同類別的差距主要來(lái)自于細(xì)胞核的差異,醫(yī)生在判別細(xì)胞異常與否也是通過(guò)對(duì)細(xì)胞核的分析來(lái)確定,因此本文從原始圖像中裁剪出固定大小的細(xì)胞核區(qū)域作為網(wǎng)絡(luò)輸入圖像.具體做法為以細(xì)胞核質(zhì)心為中心,裁剪出128×128 大小的圖像,如圖4所示.
(2)圖像集擴(kuò)充
由于網(wǎng)絡(luò)訓(xùn)練需要大量的數(shù)據(jù)集,且每一類的樣本量要均衡.宮頸數(shù)據(jù)集共917 張,分為7 類,最少的一類有70 張,最多的一類有198 張.需要擴(kuò)充數(shù)據(jù)集的量,并且解決不同類別樣本量不均衡的問(wèn)題.由于宮頸細(xì)胞具有旋轉(zhuǎn)不變性,本文通過(guò)平移旋轉(zhuǎn)的方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,將正常細(xì)胞數(shù)據(jù)量擴(kuò)充為之前的20 倍,異常細(xì)胞擴(kuò)充為之前的10 倍,并按照網(wǎng)絡(luò)的輸入要求進(jìn)行邊緣填充.擴(kuò)充操作如圖5所示.
圖4 ROI 區(qū)域選取
圖5 圖像集擴(kuò)充
由于宮頸細(xì)胞數(shù)據(jù)量較小,直接訓(xùn)練網(wǎng)絡(luò)花費(fèi)時(shí)間較長(zhǎng)且效果不理想,本文采用遷移學(xué)習(xí)的方法,使用ImageNet 進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練.遷移學(xué)習(xí)指的是采用現(xiàn)有的或者已有的知識(shí)去解釋或者學(xué)習(xí)另一相關(guān)領(lǐng)域的知識(shí),其目標(biāo)是完成知識(shí)在相關(guān)領(lǐng)域之間的遷移.遷移學(xué)習(xí)基本原理如圖6所示.
圖6 遷移學(xué)習(xí)過(guò)程
對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,一般在如下情況下益采用遷移學(xué)習(xí)的方法.(1)新的數(shù)據(jù)集較小且與舊數(shù)據(jù)集差距大;(2)新數(shù)據(jù)集較大且與舊數(shù)據(jù)集相似.本文情況符合第一種,即宮頸細(xì)胞的數(shù)據(jù)集較小,因此在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,可以先利用其他大型數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,以獲得網(wǎng)絡(luò)的初始化參數(shù).遷移學(xué)習(xí)使用預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)作為學(xué)習(xí)新任務(wù)的起點(diǎn),由之前的隨機(jī)初始化變?yōu)轭A(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)作為初始化,只需要對(duì)網(wǎng)絡(luò)進(jìn)行較少的訓(xùn)練,或者只用微調(diào)剩余網(wǎng)絡(luò)層,這樣很大程度上降低了網(wǎng)絡(luò)訓(xùn)練的時(shí)長(zhǎng).因此,遷移學(xué)習(xí)不僅增強(qiáng)了網(wǎng)絡(luò)對(duì)小數(shù)據(jù)集的學(xué)習(xí)能力,還可以加快網(wǎng)絡(luò)的收斂速度.
由于本文使用的預(yù)訓(xùn)練網(wǎng)絡(luò)模型為VGG16 模型,所以改進(jìn)的網(wǎng)絡(luò)參數(shù)大部分與VGG16 網(wǎng)絡(luò)參數(shù)一致,VGG16 由13 個(gè)卷積層,5 個(gè)池化層,2 個(gè)全連接層以及1 個(gè)Softmax 層.本文設(shè)計(jì)的網(wǎng)絡(luò)卷積層同VGG16網(wǎng)絡(luò)卷積層相同,卷積層參數(shù)如表2所示.
表2 VGG16 卷積層參數(shù)
由于越靠近最終的Softmax 分類層,網(wǎng)絡(luò)的特征跟原始數(shù)據(jù)集越相關(guān),所以在遷移網(wǎng)絡(luò)參數(shù)的時(shí)候,只復(fù)用卷積層的參數(shù),并根據(jù)具體應(yīng)用數(shù)據(jù)集進(jìn)行更改全連接層以及Softmax 層參數(shù).
在VGG16 網(wǎng)絡(luò)中全連接層神經(jīng)元個(gè)數(shù)分別為4096-4096-1000,全連接層FC1 的權(quán)重參數(shù)量為7×7×512×4096=102 760 448,FC2 的權(quán)重參數(shù)量為4096×4096=16 777 216,Softmax 層的權(quán)重參數(shù)量為4096×1000=4096 000.參數(shù)量以及相應(yīng)的計(jì)算量顯然是非常大的,這是因?yàn)镮mageNet 數(shù)據(jù)集中總共有14 197 122幅圖像,總共分為21 841 個(gè)類別.相比較宮頸細(xì)胞分類是一個(gè)非常大的數(shù)據(jù)集,所以全連接層的神經(jīng)元個(gè)數(shù)相對(duì)較多,如果采用原始VGG16 的全連接層神經(jīng)元個(gè)數(shù)來(lái)實(shí)現(xiàn)宮頸細(xì)胞的分類,參數(shù)量過(guò)大,容易造成過(guò)擬合,只對(duì)訓(xùn)練集產(chǎn)生較好的分類效果,因此為了適應(yīng)本文的應(yīng)用,需要對(duì)網(wǎng)絡(luò)進(jìn)行修改,本文在相同學(xué)習(xí)率,相同迭代次數(shù)的情況下,改變?nèi)B接層神經(jīng)元個(gè)數(shù),分別取2048,1024,512,256 作為全連接層參數(shù)值.通過(guò)對(duì)比測(cè)試集準(zhǔn)確率來(lái)選擇最優(yōu)的全連接層參數(shù)設(shè)置.結(jié)果如圖7所示.
圖7 全連接層參數(shù)選擇
經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),減少全連接層神經(jīng)元個(gè)數(shù)不僅加快了網(wǎng)絡(luò)的收斂速度,并且在一定程度上提高了宮頸細(xì)胞的分類準(zhǔn)確率.本文通過(guò)實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)全連接層參數(shù)為1024-256 時(shí),分類準(zhǔn)確率最高.因此,將VGG16的全連接層神經(jīng)元個(gè)數(shù)改為1024-256.
Softmax 層的參數(shù)取決于數(shù)據(jù)集的類別數(shù),原始VGG16 網(wǎng)絡(luò)是用來(lái)處理1000 類的數(shù)據(jù),而本文主要用于宮頸細(xì)胞二分類和七分類,故進(jìn)行二分類時(shí)將Softmax層神經(jīng)元個(gè)數(shù)改為2,進(jìn)行七分類時(shí)將Softmax 層改為7.
表3 參數(shù)計(jì)算量對(duì)比
為了提高模型的泛化能力,加快收斂速度,本文在已有的模型損失函數(shù)中加入正則化,公式如下:
式中,R(ω)為正則化項(xiàng),w為模型系數(shù)組成的向量,一般有L1 正則化和L2 正則化.
(1)L1 正則化
L1 正則化是指正則化項(xiàng)為模型系數(shù)w的L1 范數(shù),如式(2)所示.由于正則項(xiàng)在零點(diǎn)不可微,因此權(quán)重因子趨近于零,這就使一些對(duì)分類結(jié)果貢獻(xiàn)較低的特征所對(duì)應(yīng)的系數(shù)為0.所以使用L1 正則化可以對(duì)模型進(jìn)行特征選擇.
(2)L2 正則化
L2 正則化是指正則化項(xiàng)為模型系數(shù)w的L2 范數(shù),如式(3)所示.L2 正則化中模型系數(shù)為二次方,因此與L1 不同,L2 使系數(shù)的取值趨于平滑.由于引入L2 正則化使的loss 最小時(shí),模型參數(shù)也是最小的,從而降低了模型的復(fù)雜度,降低了模型出現(xiàn)過(guò)擬合的可能性.
1.2.2 細(xì)胞形態(tài)學(xué)檢查 抽取骨髓液制涂片,快速干燥后進(jìn)行瑞氏染色,根據(jù)需要進(jìn)行特殊細(xì)胞化學(xué)染色,包括過(guò)氧化物酶、堿性磷酸酶、特異性酯酶、非特異性酯酶及糖原染色等,進(jìn)行形態(tài)學(xué)分型。
對(duì)于卷積神經(jīng)網(wǎng)絡(luò)對(duì)宮頸細(xì)胞分類的有效性進(jìn)行評(píng)價(jià)是非常有必要的,在分類任務(wù)中常用的評(píng)價(jià)指標(biāo)有以下幾項(xiàng):準(zhǔn)確率(Accuracy,Acc),精確率(Precision,P),召回率(Recall,R)和F1-score.以TP,FN,FP,TN分別表示分類過(guò)程中的值,以二分類為例,具體如表4所示.
表4 混淆矩陣
準(zhǔn)確率的定義對(duì)于給定的測(cè)試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)N總之比,即測(cè)試集中分類正確的宮頸細(xì)胞個(gè)數(shù)占總測(cè)試集的百分比.
精確率指的是正類分類正確的個(gè)數(shù)與分類器檢索到的正類總數(shù)之比.該值體現(xiàn)了分類器是否分類正確.
召回率指的是正類分類正確的個(gè)數(shù)與實(shí)際正類別總數(shù)之比.該值體現(xiàn)了分類器分類是否完全,所以召回率也叫做查全率.
F1-score指的是精確值和召回率的調(diào)和均值,一般情況下,要求精確率和召回率都要比較高,但是實(shí)際情況中,精確率高的時(shí)候,召回率就低,F1 值就是評(píng)價(jià)精確率和召回率的調(diào)和參數(shù)
在醫(yī)學(xué)領(lǐng)域,準(zhǔn)確率是診斷疾病的重要評(píng)價(jià)指標(biāo),但是相比較于準(zhǔn)確率,誤識(shí)別率更是所要關(guān)注的,即將異常細(xì)胞分類為正常細(xì)胞的概率.
上述介紹了二分類過(guò)程中各個(gè)評(píng)價(jià)指標(biāo)值的計(jì)算方法,在多分類中采用混淆矩陣的表示方法來(lái)計(jì)算各個(gè)指標(biāo)的值.可以將多分類的計(jì)算看作是當(dāng)前類和其他類,從而轉(zhuǎn)換成二分類進(jìn)行計(jì)算.多分類的準(zhǔn)確率如下:
本文通過(guò)對(duì)HerLev 數(shù)據(jù)集的預(yù)處理將圖像集擴(kuò)充至11 590 張,將擴(kuò)充后的數(shù)據(jù)集以6:2:2 的比列劃分為訓(xùn)練集,驗(yàn)證集,測(cè)試集.其中訓(xùn)練集為6954 張,驗(yàn)證集和測(cè)試集分別為2318.采用VGG-16 卷積神經(jīng)網(wǎng)絡(luò)卷積層對(duì)宮頸圖像進(jìn)行特征提取,采用全連接層進(jìn)行宮頸圖像分類.訓(xùn)練過(guò)程中,設(shè)置mini-batch 為32,訓(xùn)練集共6954 張,故一個(gè)epoch 的迭代次數(shù)iteration值至少為218 次,epoch 值設(shè)置為1000.學(xué)習(xí)率Lr 初始值為0.0001,然后隨著迭代次數(shù)的增加,減小學(xué)習(xí)率.學(xué)習(xí)率按照如下公式進(jìn)行遞減:
式中,lr0為學(xué)習(xí)率初始值,Lr為不同epoch 對(duì)應(yīng)的學(xué)習(xí)率值.
對(duì)宮頸細(xì)胞圖像分別進(jìn)行七分類和二分類,二分類結(jié)果如表5所示.
由表5可以看出:二分類的準(zhǔn)確率較高,且正常細(xì)胞與異常細(xì)胞的準(zhǔn)確率大致相同,召回率異常細(xì)胞比正常細(xì)胞更高,這說(shuō)明網(wǎng)絡(luò)對(duì)異常細(xì)胞的分類更為準(zhǔn)確,即有較少的異常案例被分類為正常細(xì)胞.這也為神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行細(xì)胞檢測(cè)提供了依據(jù),但是在臨床上,對(duì)異常細(xì)胞的檢測(cè)要更高,異常細(xì)胞的召回率要盡量接近1,所以卷積神經(jīng)網(wǎng)絡(luò)識(shí)別宮頸細(xì)胞目前只能作為輔助決策手段,不能完全代替醫(yī)生.宮頸細(xì)胞的二分類混淆矩陣如圖8所示.
表5 宮頸細(xì)胞二分類結(jié)果
圖8 二分類混淆矩陣
由圖8可以看出:正常細(xì)胞中有38 張誤分類為異常細(xì)胞,異常細(xì)胞中有25 張圖片被分類為正常細(xì)胞,相對(duì)于測(cè)試集圖片的數(shù)量,分類錯(cuò)誤的圖像是很少的,尤其是異常細(xì)胞的圖像,這也說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)在宮頸細(xì)胞分類中的優(yōu)越性,但是仍需醫(yī)生進(jìn)行二次篩選,以達(dá)到誤識(shí)別率最低,所以需要對(duì)正常宮頸細(xì)胞以及異常宮頸細(xì)胞進(jìn)行更細(xì)致的劃分,以達(dá)到最佳輔助決策的效果.
宮頸細(xì)胞八分類的混淆矩陣結(jié)果如圖9所示,通過(guò)對(duì)混淆矩陣計(jì)算得到七分類各個(gè)評(píng)價(jià)指標(biāo)的結(jié)果,如表6所示.
通過(guò)圖9以及表6可以看出:前兩類的分類準(zhǔn)確率相對(duì)其他類較高,分別為0.966 和0.964 且未將這兩類正常細(xì)胞錯(cuò)誤分類為異常細(xì)胞,兩類細(xì)胞的召回率分別為0.966 和0.964,也是這7 類細(xì)胞中最高的.而第4,5,6 類異常細(xì)胞的分類準(zhǔn)確率較低,分別為0.834,0.836 和0.798,但是,錯(cuò)誤分類多存在于相鄰兩類之間,因此可以可以人工對(duì)第4 類細(xì)胞進(jìn)行篩選從而將異常細(xì)胞的誤判率降到最低.
將本文卷積神經(jīng)網(wǎng)絡(luò)分類的方法,同其他人工提取數(shù)據(jù)特征再通過(guò)設(shè)計(jì)分類器分類的算法相比較,得出的結(jié)果如表7所示.
圖9 七分類混淆矩陣
表6 宮頸細(xì)胞七分類結(jié)果
表7 不同方法分類對(duì)比結(jié)果
從對(duì)比結(jié)果可以看出,本文方法在細(xì)胞二分類的準(zhǔn)確率相對(duì)較高,高出目前最好的提升樹分類器算法XGBoost,AdaBoost,Bagging 等,這些算法均為目前機(jī)器學(xué)習(xí)領(lǐng)域最為常用的分類算法,在數(shù)據(jù)的分類表現(xiàn)優(yōu)異.這是因?yàn)椴捎脭?shù)據(jù)特征對(duì)細(xì)胞進(jìn)行分類,其結(jié)果會(huì)受圖像分割準(zhǔn)確率的影響,且分類特征為人工選取,不具有代表性,而本文通過(guò)卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取細(xì)胞圖像的分類特征,不受人工主觀影響,所以本文方法在二分類的準(zhǔn)確率相對(duì)較高.在七分類的準(zhǔn)確率對(duì)比結(jié)果中可以看出:本文方法的提升較大,這是因?yàn)樵紨?shù)據(jù)集中每個(gè)類別的數(shù)據(jù)量不均衡,在數(shù)據(jù)分類中解決這類數(shù)據(jù)偏斜的問(wèn)題,往往需要對(duì)數(shù)據(jù)進(jìn)行過(guò)采樣,欠采樣或者調(diào)整預(yù)測(cè)概率的閾值,這樣模型變得復(fù)雜,且不易得到穩(wěn)定的分類模型.本文在數(shù)據(jù)集預(yù)處理階段,基于細(xì)胞圖像翻轉(zhuǎn)不變性,對(duì)圖像進(jìn)行平移翻轉(zhuǎn)操作擴(kuò)充了數(shù)據(jù)集,解決了樣本量不平衡的問(wèn)題,但是召回率仍相對(duì)較低,這也是之后仍需改進(jìn)的地方.
本文通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)宮頸細(xì)胞圖像進(jìn)行自動(dòng)分類,在預(yù)處理階段通過(guò)圖像裁剪,圖像集擴(kuò)充解決了樣本分布不平衡的問(wèn)題,并使用遷移學(xué)習(xí)初始化網(wǎng)絡(luò)參數(shù),加快收斂,最后對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,加入L1 正則化進(jìn)行特征的篩選,簡(jiǎn)化網(wǎng)絡(luò),并加入L2 正則化來(lái)避免過(guò)擬合.實(shí)驗(yàn)結(jié)果表明:使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)細(xì)胞圖像進(jìn)行分類可以得到較好的準(zhǔn)確率,分類準(zhǔn)確率相比較人工提取特征分類器效果較好,且分類結(jié)果不受分割圖像準(zhǔn)確率的影響,模型分類效率高,在一定程度上幫助醫(yī)生進(jìn)行醫(yī)療決策,減少用人成本,提高診斷準(zhǔn)確率.