胡鵬輝,王 娜,王 毅,王慧芳,汪天富,倪 東
1) 深圳大學(xué)醫(yī)學(xué)部生物醫(yī)學(xué)工程學(xué)院,廣東省生物醫(yī)學(xué)信息檢測(cè)與超聲成像重點(diǎn)實(shí)驗(yàn)室,醫(yī)學(xué)超聲關(guān)鍵技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室,廣東深圳518060;2) 深圳大學(xué)第一附屬醫(yī)院,深圳市第二人民醫(yī)院超聲科,廣東深圳518035
女性盆底功能障礙性疾病(female pelvic floor dysfunction, FPFD)包括盆腔器官脫垂(pelvic organ prolapse, POP)、 壓力性尿失禁(stress urinary incontinence, SUI)和糞失禁(fecal incontinence, FI)等一系列綜合征.FPFD致病因素有很多,目前主要原因是由妊娠及分娩引起的肛提肌損傷(levator trauma, LT).臨床研究表明,LT與FPFD密切相關(guān)[1].DELANCEY等[2]研究發(fā)現(xiàn),LT導(dǎo)致女性泌尿生殖裂孔增大,更易發(fā)生POP;SINGH等[3]指出,肛提肌裂孔(levator hiatus, LH)大小的定量測(cè)量可用于評(píng)價(jià)POP;DIETZ等[4]研究發(fā)現(xiàn),LT范圍與POP的嚴(yán)重程度呈正相關(guān)關(guān)系.
盆底超聲因具有實(shí)時(shí)成像、費(fèi)用低且無(wú)輻射的優(yōu)點(diǎn),成為盆底疾病主要的影像檢查手段[5].LH邊緣描記是對(duì)其生物參數(shù)測(cè)量的首要條件.圖1中的紅線為盆底專家對(duì)兩種典型病例(即邊緣模糊和肛提肌單側(cè)損傷)LH邊緣的手動(dòng)標(biāo)注結(jié)果.臨床診療中,這種手動(dòng)描記方式易受醫(yī)生主觀經(jīng)驗(yàn)影響,誤差大、步驟繁瑣且耗時(shí)長(zhǎng),因此,LH的智能識(shí)別對(duì)FPFD診療至關(guān)重要.但是,從盆底超聲圖像中智能識(shí)別LH時(shí)面臨以下難點(diǎn):① 臨床數(shù)據(jù)的采集、處理與標(biāo)注極具挑戰(zhàn)性且相當(dāng)耗時(shí);② 超聲圖像存在聲影、散斑和邊緣模糊等特點(diǎn);③ 采集二維容積數(shù)據(jù)時(shí),探頭的位置或加壓不當(dāng),都會(huì)導(dǎo)致圖像質(zhì)量欠佳,影響后續(xù)處理;④ 肛提肌單側(cè)或雙側(cè)損傷導(dǎo)致LH邊緣不完整.
圖1 盆底超聲中的肛提肌裂孔手動(dòng)標(biāo)注結(jié)果(紅線為醫(yī)生手動(dòng)標(biāo)注;藍(lán)色和黃色箭頭分別為肛提肌邊緣模糊和單側(cè)撕裂)Fig.1 The manual labels of levator hiatus in pelvic ultrasound image(The red contour indicates corresponding ground truth. Blue and yellow arrows denote boundary deficiency caused by US characteristic and injury of the levator ani, respectively)
LH的自動(dòng)分割是智能盆底超聲中較創(chuàng)新的研究方向,據(jù)檢索,目前尚無(wú)完全自動(dòng)的肛提肌裂孔智能識(shí)別解決方案.SINDHWAI等[6]利用水平集方法實(shí)現(xiàn)半自動(dòng)LH輪廓的描繪,因其需要手動(dòng)標(biāo)記2個(gè)解剖位置點(diǎn)——恥骨聯(lián)合后下緣點(diǎn)和恥骨直腸肌底部前緣點(diǎn),該方法分割精度受圖像質(zhì)量影響較大.近年來(lái),隨著深度學(xué)習(xí)的蓬勃發(fā)展,其在醫(yī)學(xué)超聲圖像處理領(lǐng)域相比傳統(tǒng)的醫(yī)學(xué)超聲圖像處理方法表現(xiàn)更好.卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[7]雖然在圖像前景分類有不錯(cuò)的效果,但基于CNN的分割方法一般采取逐像素取塊分類的方法,非常耗時(shí);同時(shí),限于圖像塊的大小,該方法無(wú)法利用上下文信息,令算法性能存在較大瓶頸.端到端的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network, FCN)[8]利用卷積層代替全連接層,使用編碼器-解碼器的網(wǎng)絡(luò)結(jié)構(gòu),可分割任意尺寸的圖像,但FCN中采用的上采樣結(jié)構(gòu)會(huì)使圖像細(xì)節(jié)信息丟失,降低了分割精度;SegNet[9]也是端到端的編碼器-解碼器結(jié)構(gòu)網(wǎng)絡(luò),相比FCN中僅通過(guò)跳躍方式復(fù)制編碼器特征,SegNet還復(fù)制了最大池化指數(shù),使得SegNet更加高效,但此模型仍過(guò)于復(fù)雜.所以,對(duì)LH超聲圖像分割問(wèn)題,本研究參考SegNet網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)思想,提出Auto-Net結(jié)構(gòu),同時(shí)考慮到超聲圖像成像質(zhì)量差的特點(diǎn),采用細(xì)節(jié)信息優(yōu)化策略[10]——自動(dòng)上下文(auto-context)模型思想對(duì)Auto-Net網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行完善,增強(qiáng)了網(wǎng)絡(luò)全局特征的學(xué)習(xí)能力,提高了預(yù)測(cè)圖的局部空間一致性[11].最后,采用全連接條件隨機(jī)場(chǎng)(conditional random fields, CRF)加強(qiáng)邊緣約束,對(duì)分割結(jié)果實(shí)現(xiàn)精細(xì)化處理,為后續(xù)生物參數(shù)的精確測(cè)量打下基礎(chǔ).
本研究基于上下文及條件隨機(jī)場(chǎng)的肛提肌裂孔智能識(shí)別方法,提出以下幾點(diǎn)創(chuàng)新:① 參考SegNet的網(wǎng)絡(luò)設(shè)計(jì)思想,簡(jiǎn)化VGG16結(jié)構(gòu),提出分割網(wǎng)絡(luò)Auto-Net,對(duì)LH的分割任務(wù)有更好的性能表現(xiàn),能夠更加準(zhǔn)確快速地識(shí)別LH;② 利用自動(dòng)上下文模型思想完善網(wǎng)絡(luò)結(jié)構(gòu),增強(qiáng)網(wǎng)絡(luò)捕捉不同尺寸不同層次的特征信息,有效提升LH分割精度;③ 基于卷積神經(jīng)網(wǎng)絡(luò)的粗分割結(jié)果,采用條件隨機(jī)場(chǎng)算法增強(qiáng)邊緣約束,有效解決了LH分割結(jié)果中邊緣不完整的問(wèn)題.
本研究主要目標(biāo)是從盆底超聲圖像中精確識(shí)別出肛提肌裂孔,通過(guò)采用適應(yīng)臨床的數(shù)據(jù)預(yù)處理方法、上下文模型卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)訓(xùn)練方式,并利用條件隨機(jī)場(chǎng)的后處理技術(shù)完成LH分割任務(wù).圖2為本研究提出的基于上下文及條件隨機(jī)場(chǎng)模型的卷積神經(jīng)網(wǎng)絡(luò)(auto-context convolution neural networks with CRF, Auto-Net-CRF)的流程圖.下面將部分介紹整個(gè)研究所用的方法,包括數(shù)據(jù)預(yù)處理、卷積神經(jīng)網(wǎng)絡(luò)原理、上下文模型網(wǎng)絡(luò)、全連接隨機(jī)場(chǎng)以及遷移學(xué)習(xí)策略.
圖2 基于上下文及條件隨機(jī)場(chǎng)模型的卷積神經(jīng)網(wǎng)絡(luò)流程圖Fig.2 Flowchart of Auto-context convolutional neural network with conditional random fields
本研究對(duì)原始盆底超聲圖像進(jìn)行一系列的預(yù)處理,以達(dá)到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練要求,預(yù)處理流程如圖3.
圖3 盆底超聲預(yù)處理流程圖 Fig.3 Flowchart of pretreatmentin pelvic ultrasound image
首先,裁剪出LH所在的圖像區(qū)域;其次,由3位經(jīng)驗(yàn)豐富的醫(yī)生分別對(duì)其進(jìn)行間隔期為1周的2次標(biāo)注,為降低醫(yī)生之間因臨床經(jīng)驗(yàn)等不同以及醫(yī)生自身觀察角度各異導(dǎo)致的標(biāo)注誤差,取3位醫(yī)生6次標(biāo)注的平均值作為分割的標(biāo)簽;然后,對(duì)LH圖像進(jìn)行直方圖均衡化處理來(lái)增強(qiáng)對(duì)比度,以降低超聲圖像中偽影、噪聲和邊界模糊等的干擾;最后,由于深度學(xué)習(xí)往往需要大量的訓(xùn)練樣本,而臨床數(shù)據(jù)采集比較困難,因此,本研究采用數(shù)據(jù)增強(qiáng)技術(shù)[7],以隨機(jī)裁剪、平移、縮放、旋轉(zhuǎn)和鏡像等方式增大數(shù)據(jù)集規(guī)模,解決因數(shù)據(jù)集過(guò)小致使網(wǎng)絡(luò)訓(xùn)練出現(xiàn)過(guò)擬合的問(wèn)題.
CNN是近幾年發(fā)展起來(lái),并引起廣泛關(guān)注的一種深度學(xué)習(xí)方法.因其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,現(xiàn)已成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一.
一般來(lái)講,卷積神經(jīng)網(wǎng)絡(luò)主要包括3種基本結(jié)構(gòu)(層):其一是卷積核(層),每個(gè)卷積核與前一層的特征圖局部相連,并提取該部分的特征.一旦該局部特征被提取后,它與其他特征間的相對(duì)位置關(guān)系也隨之確定下來(lái).此外,由于一個(gè)特征圖上的卷積核共享權(quán)值,因而減少了網(wǎng)絡(luò)中自由參數(shù)的個(gè)數(shù),避免了特征提取和分類過(guò)程中出現(xiàn)維度災(zāi)難(curse of dimensionality)[12].其二是激活函數(shù)δ(·), 網(wǎng)絡(luò)中卷積核提取的特征,經(jīng)過(guò)激活函數(shù)抽象為更高階的特征,使其更具有表達(dá)能力.同時(shí)常用的激活函數(shù)如修正線性單元(rectified linear unit,ReLU[13])等,使得特征抽象具有位移不變性.其三是池化核(層),本質(zhì)就是采樣,對(duì)輸入的特征圖以某種方式進(jìn)行壓縮如均值池化和最大值池化(max-pooling)等,從而減少網(wǎng)絡(luò)參數(shù),使卷積網(wǎng)絡(luò)具有一定的抗干擾能力.卷積計(jì)算公式為
(1)
TU等[11]提出的自動(dòng)上下文模型在圖像分割[14]和圖像識(shí)別[15]等任務(wù)中具有良好的性能表現(xiàn).該算法的核心思想是一系列訓(xùn)練模型的級(jí)聯(lián)疊加,第k-1級(jí)分類器輸出的預(yù)測(cè)概率圖包含感興趣目標(biāo)區(qū)域的基本形狀、前景與背景的輪廓分割等有價(jià)值的信息.通過(guò)上下文特征與灰度特征的融合,得到比k-1級(jí)更有效的特征描述,將其輸入到第k級(jí)分類器,進(jìn)而實(shí)現(xiàn)預(yù)測(cè)圖的概率精細(xì)化.按照這種方式不斷迭代,直到取得最優(yōu)圖像分割結(jié)果.
但是,傳統(tǒng)上下文模型的應(yīng)用方法是將灰度圖與預(yù)測(cè)概率圖通道融合后輸入分類器再次學(xué)習(xí),在實(shí)際應(yīng)用中這種方法存在以下問(wèn)題:① 灰度圖像和預(yù)測(cè)概率圖是以互相獨(dú)立的狀態(tài)輸入分類器,分類器無(wú)法學(xué)習(xí)預(yù)測(cè)概率信息與灰度信息之間的關(guān)系;② 小數(shù)據(jù)集灰度信息直接輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行重復(fù)學(xué)習(xí),可能引起過(guò)擬合使分類器性能大大降低;③ 隨著迭代次數(shù)的增加,網(wǎng)絡(luò)計(jì)算量、訓(xùn)練時(shí)間以及占用內(nèi)存率等都會(huì)實(shí)時(shí)地呈指數(shù)增長(zhǎng).
為解決以上問(wèn)題,本研究提出一種基于上下文及條件隨機(jī)場(chǎng)模型的卷積神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,參數(shù)設(shè)置如表1.
首先,參考SegNet編碼-解碼[9]的思想構(gòu)建基本卷積神經(jīng)網(wǎng)絡(luò),并在此基礎(chǔ)上進(jìn)行以下改進(jìn):
1)神經(jīng)網(wǎng)絡(luò)通過(guò)卷積核對(duì)圖像局部卷積提取局部特征,而卷積核的大小決定了感受野的范圍.為提取全局特征,神經(jīng)網(wǎng)絡(luò)一般通過(guò)增加網(wǎng)絡(luò)深度,使多層小卷積核實(shí)現(xiàn)感受野疊加.但對(duì)本研究中小數(shù)據(jù)集的二分類任務(wù)而言,過(guò)深的網(wǎng)絡(luò)結(jié)構(gòu)往往會(huì)降低網(wǎng)絡(luò)性能,出現(xiàn)過(guò)擬合等問(wèn)題,因此本研究簡(jiǎn)化VGG16結(jié)構(gòu)——設(shè)計(jì)4層卷積,根據(jù)大卷積核的優(yōu)勢(shì)[16],將最后一層卷積3×3的卷積核改為5×5,以此擴(kuò)大感受野達(dá)到快速提取全局特征的目的,實(shí)驗(yàn)結(jié)果也證明了其有效性.
2)將自動(dòng)上下文思想引入神經(jīng)網(wǎng)絡(luò)中,如圖2灰色箭頭所示.分別將編碼過(guò)程中輸入圖和第3及第4層卷積圖與對(duì)應(yīng)解碼部分融合,強(qiáng)化網(wǎng)絡(luò)的特征學(xué)習(xí),進(jìn)而實(shí)現(xiàn)對(duì)LH圖像的精細(xì)化分割.最后,將完成零均值和歸一化處理后的LH圖像輸入到基于上下文及條件隨機(jī)場(chǎng)模型的卷積神經(jīng)網(wǎng)絡(luò)中,采用反向傳播和隨機(jī)梯度下降算法[19],以端到端的方式訓(xùn)練,得到LH初步分割結(jié)果.
表1 Auto-Net模型結(jié)構(gòu)
文獻(xiàn)[17]提出的條件隨機(jī)場(chǎng),因其在序列預(yù)測(cè)和文本分析等方面良好的性能表現(xiàn),被廣泛用于深度神經(jīng)網(wǎng)絡(luò)的后處理過(guò)程[18-20].該算法根據(jù)輸入圖像學(xué)習(xí)不同類別標(biāo)簽的后驗(yàn)條件概率分布,再通過(guò)最大化后驗(yàn)概率獲取圖像中對(duì)應(yīng)像素點(diǎn)的最佳標(biāo)簽.本研究為完善LH分割結(jié)果,將Auto-Net輸出的LH預(yù)測(cè)概率圖輸入CRF模型,利用CRF算法對(duì)LH概率圖中各個(gè)像素點(diǎn)及其周圍像素對(duì)應(yīng)的概率進(jìn)行統(tǒng)計(jì)分析,以抑制小概率點(diǎn)同時(shí)增強(qiáng)大概率點(diǎn)的方式,實(shí)現(xiàn)對(duì)LH分割結(jié)果的精細(xì)化處理.
對(duì)小數(shù)據(jù)集的模型訓(xùn)練,過(guò)擬合是一個(gè)大問(wèn)題.近年來(lái)的大量研究證明[21-23],先從大規(guī)模的自然數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)網(wǎng)絡(luò)模型,然后將該模型前n層參數(shù)復(fù)制到對(duì)應(yīng)目標(biāo)網(wǎng)絡(luò)層中完成前n層網(wǎng)絡(luò)初始化,余下層則隨機(jī)初始化參數(shù),這種方式可有效防止訓(xùn)練過(guò)程中出現(xiàn)收斂速度慢和梯度消失等情況[13],同時(shí)解決了數(shù)據(jù)量過(guò)小導(dǎo)致的過(guò)擬合問(wèn)題.這種遷移學(xué)習(xí)網(wǎng)絡(luò)層參數(shù)方法的有效性在于神經(jīng)網(wǎng)絡(luò)提取的特征具有層級(jí)特性,即淺層網(wǎng)絡(luò)提取低層特征,該類特征往往具有一般共性、描述的是目標(biāo)顏色和輪廓等基本特性,從不同數(shù)據(jù)集獲取的低層特征相似度很高;而深層網(wǎng)絡(luò)一般提取高層特征,這些特征具有很大的特異性,不同數(shù)據(jù)集對(duì)應(yīng)的高層特征往往差異較大.因此,本研究通過(guò)遷移預(yù)訓(xùn)練淺層網(wǎng)絡(luò)學(xué)習(xí)參數(shù)來(lái)共享低層特征,進(jìn)而實(shí)現(xiàn)自然圖像到醫(yī)學(xué)圖像的遷移學(xué)習(xí).
按照目前的研究[23],網(wǎng)絡(luò)訓(xùn)練的方式可將遷移學(xué)習(xí)分為2種:一種是訓(xùn)練時(shí)固定遷移過(guò)來(lái)的學(xué)習(xí)層參數(shù),只改變隨機(jī)初始化的學(xué)習(xí)層參數(shù);另一種是在訓(xùn)練時(shí)微調(diào)遷移的學(xué)習(xí)層參數(shù).LIN 等[24]指出,ImageNet圖像與盆底超聲LH圖像之間有較大差異,不適合利用固定層參數(shù)的遷移學(xué)習(xí)方式.所以,本研究通過(guò)微調(diào)遷移層參數(shù)的方式進(jìn)行訓(xùn)練.首先,利用數(shù)據(jù)集ImageNet[25]預(yù)訓(xùn)練VGGNet[16]作為Auto-Net-CRF模型的基礎(chǔ)網(wǎng)絡(luò);然后,復(fù)制VGGNet前3層卷積層參數(shù)至Auto-Net-CRF對(duì)應(yīng)學(xué)習(xí)層;最后,設(shè)置合理的學(xué)習(xí)率.學(xué)習(xí)率調(diào)整是訓(xùn)練出良好性能模型的關(guān)鍵要素,學(xué)習(xí)率過(guò)大導(dǎo)致梯度過(guò)大或振蕩無(wú)法收斂;學(xué)習(xí)率過(guò)小則梯度無(wú)明顯下降,訓(xùn)練極慢.根據(jù)網(wǎng)絡(luò)設(shè)計(jì)及具體的學(xué)習(xí)任務(wù),本研究將遷移參數(shù)層和隨機(jī)初始化參數(shù)層學(xué)習(xí)率分別設(shè)為0.001和0.01,訓(xùn)練過(guò)程中所有參數(shù)層學(xué)習(xí)率均以“step”方式逐漸減?。?/p>
本實(shí)驗(yàn)所有肛提肌裂孔超聲數(shù)據(jù)均采集自深圳市第二人民醫(yī)院,并由臨床醫(yī)生手動(dòng)標(biāo)注,共采集284位患者,在最小裂孔面積平面下靜息、縮肛、valsalva狀態(tài)下LH三維容積圖像合計(jì)372張.研究對(duì)象年齡在22~42歲,平均(31±4)歲,身高150.0~170.0 cm,平均(159.8±4.7) cm,體重39.00~89.00 kg,平均(59.04±8.15) kg,超聲檢查設(shè)備為Mindray Resona7彩色多普勒超聲診斷儀配備4D腔內(nèi)容積探頭DE10-3WU,探頭頻率為3.0~10.0 MHz,最大掃查角度175°.
為全面評(píng)估分類器性能,實(shí)驗(yàn)采用交叉驗(yàn)證法,先將數(shù)據(jù)集D隨機(jī)劃分成10個(gè)互斥子集,即D=D1∪D2∪…∪D10,Di∩Dj=?(i≠j). 依次取1個(gè)子集作為測(cè)試集,余下的9個(gè)子集經(jīng)數(shù)據(jù)增強(qiáng)后用于訓(xùn)練,其中300張作為驗(yàn)證集.
本研究采用tensorflow1.2框架進(jìn)行基于上下文及條件隨機(jī)場(chǎng)模型的肛提肌裂孔智能識(shí)別.實(shí)驗(yàn)使用的計(jì)算機(jī)硬件環(huán)境為32核2.9 GHz Intel Xeon E5-2670 CPU和NVIDIA 1080 GPU.訓(xùn)練整個(gè)基于上下文及條件隨機(jī)場(chǎng)模型的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練耗時(shí)約10 h.測(cè)試階段則速度較快,在加載訓(xùn)練好的網(wǎng)絡(luò)后,單張圖像只需0.1 s就能得到分割結(jié)果.
圖4展示了LH自動(dòng)分割結(jié)果.其中,紅線表示醫(yī)生手動(dòng)描記,綠線表示Auto-Net的分割結(jié)果,藍(lán)線表示Auto-Net-CRF的分割結(jié)果.
圖4 肛提肌裂孔分割結(jié)果圖展示(紅線表示醫(yī)生手動(dòng)描記,綠線表示上下文網(wǎng)絡(luò)模型輸出結(jié)果,藍(lán)線表示加入條件隨機(jī)場(chǎng)后的輸出結(jié)果.)Fig.4 The segmentation results of PUS LH images (The red denotes the ground truth, while the green and blue represent output of Auto-Net and result of CRF procession, respectively.)
由圖4可見(jiàn),Auto-Net能夠有效分割出LH,表明本研究所設(shè)計(jì)的卷積網(wǎng)絡(luò)有效,但與醫(yī)生標(biāo)注的結(jié)果重合度仍有一定差距,邊緣不夠平滑,存在分割邊界凸起和凹陷等問(wèn)題;而把CRF加入網(wǎng)絡(luò),增強(qiáng)邊緣約束后,分割效果的提升較為明顯,分割邊緣平滑,與醫(yī)生的標(biāo)注結(jié)果基本吻合.
為更全面準(zhǔn)確地評(píng)估分割結(jié)果,本研究參考文獻(xiàn)[25-27],同時(shí)采用區(qū)域和形狀相似度兩類評(píng)價(jià)指標(biāo),即重合率(Dice)、相似度(Jaccard)、一致性系數(shù)(conformity coefficient,Cc)、Hausdorff距離(Hausdorff distance,HdD)和邊界平均距離(average distance of boundaries, Adb) 5種指標(biāo)評(píng)價(jià)LH分割結(jié)果.其中,Dice、Jaccard和Cc為基于區(qū)域的評(píng)價(jià)指標(biāo);HdD及Adb是基于距離的評(píng)價(jià)指標(biāo),單位是像素.設(shè)G為醫(yī)生手動(dòng)標(biāo)記的目標(biāo)區(qū)域(ground truth),S為算法自動(dòng)分割結(jié)果(automatic segmentation),3種基于區(qū)域的評(píng)價(jià)指標(biāo)計(jì)算公式分別為
(2)
(3)
(4)
其中,函數(shù)S(·)表示面積計(jì)算符.
基于區(qū)域面積的評(píng)價(jià)指標(biāo)側(cè)重于評(píng)價(jià)醫(yī)生手動(dòng)標(biāo)記與算法自動(dòng)分割結(jié)果在空間維度上的重合度,這就存在一個(gè)弊端,當(dāng)目標(biāo)區(qū)域面積較大時(shí),基于區(qū)域面積的評(píng)價(jià)指標(biāo)對(duì)細(xì)節(jié)的評(píng)價(jià)能力有限;相比之下,基于距離的評(píng)價(jià)指標(biāo)更側(cè)重于手動(dòng)標(biāo)記與自動(dòng)分割結(jié)果輪廓線的吻合度,在圖像分割評(píng)價(jià)指標(biāo)中較為準(zhǔn)確.兩種基于距離的評(píng)價(jià)指標(biāo)表示為
HdD= max(maxpG?Gdmin(pS,S),
maxpG?Sdmin(pS,S))
(5)
(6)
其中,dmin(pG,S)為G上的點(diǎn)pG到S上最近點(diǎn)的距離;dmin(pS,G)為S上的點(diǎn)pS到G上最近點(diǎn)的距離;σG為G輪廓上點(diǎn)的個(gè)數(shù).
為比較不同數(shù)據(jù)增強(qiáng)方法的效果,使用Auto-Net在測(cè)試數(shù)據(jù)上進(jìn)行分割性能的對(duì)比.如表2,使用旋轉(zhuǎn)和裁剪的模型性能指標(biāo)明顯優(yōu)于不使用裁剪(旋轉(zhuǎn))的模型性;僅使用裁剪(旋轉(zhuǎn))會(huì)使模型性能有一定上升,但仍不及兩者均使用.表2充分說(shuō)明本研究使用數(shù)據(jù)增強(qiáng)方法的可行性.
依據(jù)上述指標(biāo),本研究的框架與當(dāng)前圖像分割領(lǐng)域較流行的深度學(xué)習(xí)模型(CNN、U-net[28]、SegNet和FCN)在測(cè)試數(shù)據(jù)上進(jìn)行分割性能的評(píng)估與比較,如表3.
表2 不同數(shù)據(jù)增強(qiáng)方法分割性能比較
表3 不同分割方法性能比較
由表3的評(píng)估結(jié)果可知,Auto-Net模型作為本研究框架的核心算法,Dice、Jaccard、Cc、HdD和Adb 5種指標(biāo)評(píng)價(jià)均優(yōu)于其他傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型,而CRF的使用讓Auto-Net的分割性能得到進(jìn)一步提升.Auto-Net-CRF和原模型SegNet相比,5種指標(biāo)均有明顯提升.
本研究創(chuàng)新性地將自動(dòng)上下文思想融入網(wǎng)絡(luò)設(shè)計(jì)中,提高了分類器性能;條件隨機(jī)場(chǎng)的使用加強(qiáng)了LH的邊緣約束,有效解決了因LH邊緣模糊而分割邊緣不完整的問(wèn)題.基于上下文及條件隨機(jī)場(chǎng)的肛提肌裂孔智能識(shí)別方法能夠準(zhǔn)確高效地從盆底超聲圖像中識(shí)別出肛提肌裂孔,為后續(xù)的參數(shù)測(cè)量研究提供了理論和技術(shù)支持.目前,中國(guó)超聲界正在組建女性盆底疾病的多中心協(xié)作重點(diǎn)實(shí)驗(yàn)室,致力于制定出針對(duì)亞洲人盆底疾病診斷的標(biāo)準(zhǔn),更快且更準(zhǔn)確地獲取研究數(shù)據(jù)顯得尤為重要,尤其是對(duì)于測(cè)量步驟繁瑣的LH而言.因此,基于上下文及條件隨機(jī)場(chǎng)的肛提肌裂孔智能識(shí)別方法有望在未來(lái)科研和臨床上有更廣闊的應(yīng)用.
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61571304, 61701312, 81571758, 81771922)
作者簡(jiǎn)介:胡鵬輝(1992—),男,深圳大學(xué)碩士研究生.研究方向:醫(yī)學(xué)圖像分析.E-mail:515102745@qq.com
引文:胡鵬輝,王 娜,王 毅,等.基于全卷積神經(jīng)網(wǎng)絡(luò)的肛提肌裂孔智能識(shí)別[J]. 深圳大學(xué)學(xué)報(bào)理工版,2018,35(3):316-323.
參考文獻(xiàn)/References:
[1] DIETZ H P, SIMPSON J M. Levator trauma is associated with pelvic organ prolapse[J]. Bjog: An International Journal of Obstetrics & Gynaecology, 2008, 115(8): 979-984.
[2] DELANCEY J O, MORGAN D M, FENNER D E, et al. Comparison of levator ani muscle defects and function in women with and without pelvic organ prolapse[J]. Obstetrics & Gynecology, 2007, 109(2 Pt 1): 295-302.
[3] SINGH K, JAKAB M, REID W M N, et al. Three-dimensional magnetic resonance imaging assessment of levator ani morphologic features in different grades of prolapse[J]. American Journal of Obstetrics & Gynecology, 2003, 188(4): 910-915.
[4] DIETZ H P, SHEK C, DE L J, et al. Ballooning of the levator hiatus[J]. Ultrasound in Obstetrics & Gynecology the Official Journal of the International Society of Ultrasound in Obstetrics & Gynecology, 2008, 31(6): 676.
[5] YING Tao, LI Qiu, XU Lian, et al. Three-dimensional ultrasound appearance of pelvic floor in nulliparous women and pelvic organ prolapse women[J]. International Journal of Medical Sciences, 2012, 9(10): 894-900.
[6] SINDHWANI N, BARBOSA D, ALESSANDRINI M, et al. Semi-automatic outlining of levator hiatus[J]. Ultrasound in Obstetrics & Gynecology, 2016, 48(1): 98.
[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. North Miami Beach, USA: Curran Associates Inc, 2012: 1097-1105.
[8] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(4): 640-651.
[9] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for scene segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, PP(99):1.
[10] CHEN Hao, ZHENG Yefeng, PARK J H, et al. Iterative multi-domain regularized deep learning for anatomical structure detection and segmentation from ultrasound images[C]// Intemational Conference on Medical Jmage Computing and Computer-assisted Jntervention. Athens:[s.n.] 2016: 487-495.
[11] TU Zhuowen. Auto-context and its application to high-level vision tasks[C]// IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]: IEEE, 2008: 1-8.
[12] XU Bing, WANG Naiyan, CHEN Tianqi, et al. Empirical evaluation of rectified activations in convolutional network[EB/OL]. (2015-05-05). https://arxiv.org/abs/1505.00853.
[13] ZHU Jun, CHEN Xianjie, YUILLE A L. DeePM: a deep part-based model for object detection and semantic part localization[EB/OL]. (2015-11-23).[2016-01-26]. https://arxiv.org/abs/1511.07131
[14] GAO Yaozong, WANG Li, SHAO Yeqin, et al. Learning distance transform for boundary detection and deformable in CT prostate images[M]// Machine Learning in Medical Imaging. Heidelber, Germany: Springer International Publishing, 2014, 8679: 93-100.
[15] QIAN Chunjun, WANG Li, YOUSUF A, et al. In vivo MRI based prostate cancer identification with random forests and auto-context model[C]// International Workshop on Machine Learning in Medical Imaging. Heidelber, Germany: Springer International Publishing, 2014: 314-322.
[16] LIU Ziwei, LI Xiaoxiao, LUO Ping, et al. Semantic image segmentation via deep parsing network[C]// IEEE International Conference on Computer Vision. New York, USA: Computer Society, 2015: 1377-1385.
[17] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann Publishers Inc, 2001: 282-289.
[18] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[19] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[20] CHANDRA S, KOKKINOS I. Fast, exact and multi-scale inference for semantic image segmentation with deep Gaussian CRFs[C]// European Conference on Computer Vision. Heidelber, Germany: Springer International Publishing, 2016: 402-418.
[21] DONAHUE J, JIA Yangqing, VINYALS O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition[C]// Proceedings of the 31st International Conference on Machine Learning. Beijing: JMLR.org, 2014: 32 (1) 1-647
[22] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: an astounding baseline for recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops. Columbus, USA: IEEE, 2014: 512-519.
[23] YOSINSKI J,CLUNE J,BENGIO Y,et al.How transferable are features in deep neural networks?[EB/OL].(2014-11-06). https://arxiv.org/abs/1411.1792
[24] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[J]. Computer Science,2014, 8693: 740-755.
[25] HUANG Qian, DOM B. Quantitative methods of evaluating image segmentation[C]// Proceedings of the International Conference on Image Processing. Washington DC, USA: IEEE Computer Society, 1995: 3: 3053.
[26] TAHA A A, HANBURY A. Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool[J]. BMC Medical Imaging, 2015, 15(1): 29.
[27] CHANG H H, ZHUANG A H, VALENTINO D J, et al. Performance measure characterization for evaluating neuroimage segmentation algorithms[J]. Neuroimage, 2009, 47(1): 122.
[28] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for scene segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.