陳 珊, 卜 巍, 鄔向前
(1 哈爾濱工業(yè)大學 計算機科學與技術學院, 哈爾濱 150001; 2 哈爾濱工業(yè)大學 媒體技術與藝術學院, 哈爾濱 150001)
乳腺癌是女性最常見的癌癥類型。據(jù)世界衛(wèi)生組織統(tǒng)計,全球每年有超過50萬婦女死于乳腺癌,超過120萬婦女被診斷患有乳腺癌,且發(fā)病率不斷上升[1]。在中國女性中,乳腺癌約占所有女性癌癥的15%。并有數(shù)據(jù)顯示,中國乳腺癌的發(fā)病率每年正以3%的速度上升。這一現(xiàn)實狀況即使其已然成為女性群體中性命攸關的危重病癥之一。但乳腺癌的致病誘因至今還未獲得徹底揭示,因此盡早發(fā)現(xiàn)乳腺癌并盡早治療則顯得尤為重要。
乳腺鉬靶X光檢查是目前早期乳腺癌檢查的主要方法,醫(yī)生通過閱讀乳腺鉬靶圖像,初步判斷有無乳腺癌變。但這種初期診斷主要基于醫(yī)生的主觀判斷,容易出現(xiàn)漏診和誤診的情況。研究表明,這種人為診斷的敏感度為84%,特異度為91%[2- 3]。分析可知,漏診和誤診的發(fā)生可概略歸結為醫(yī)生長時間閱片疲勞、醫(yī)生閱片經(jīng)驗的差異和鉬靶圖像中病灶特征不明顯等原因。漏診易耽誤寶貴的治療時間,誤診則會給就診者帶來很大的精神壓力。因此,提升醫(yī)生的閱片效率和診斷準確性至關重要。
乳腺腫塊病變檢測,是乳腺鉬靶圖像診斷中的關鍵任務之一,即是要對乳腺鉬靶圖像中的腫塊病變進行準確定位和分類,但由于乳腺鉬靶圖像中的不同腫塊病變往往具有不同的形狀和尺度(如圖1所示,紅色矩形框區(qū)域為腫塊),檢測上存在一定難度。有效的乳腺腫塊病變檢測方法應當能對乳腺鉬靶圖像中不同形狀和尺度的腫塊病變都能有較好的檢測性能。
以往的大多數(shù)乳腺病變檢測方法都基于兩階段框架:先在圖像中生成候選區(qū)域,接著就在這些區(qū)域上對腫塊目標進行后續(xù)的定位和分類,比如Fast R-CNN[4]、Faster R-CNN[5]等。應對大小尺度不同的目標主要是通過在候選區(qū)域生成時,采用變化窗口大小的滑動窗口,或是采用選擇性搜索法[6]和對目標位置進行回歸的RPN網(wǎng)絡,再在第二階段開始時將這些區(qū)域放縮到同樣大小,旨在進一步調整區(qū)域的位置和邊界。
SSD(Single Shot MultiBox Detector)網(wǎng)絡[7]是時下自然圖像領域中性能較優(yōu)的圖像檢測方法之一。相比于兩階段檢測網(wǎng)絡Fast R-CNN、Faster R-CNN,SSD網(wǎng)絡在簡化模型的同時,保持了較高的檢測性能。其運行機理就是將所有計算壓縮到一個單一網(wǎng)絡中,去除了區(qū)域候選生成和特征重采樣等操作,使得網(wǎng)絡更易于訓練。同時,SSD網(wǎng)絡在最終預測時將來自多個層不同尺度的特征圖的預測進行集成,在每個不同尺度的特征圖中生成一系列大小和長寬比不同的默認檢測框,用來解決圖像中檢測目標尺度不一的問題。綜上分析可知,本文即將SSD網(wǎng)絡應用到乳腺腫塊病變檢測任務中,基于不同層多尺度特征來對腫塊病變進行定位和分類,并在DDSM數(shù)據(jù)庫[8]上獲得了優(yōu)秀的檢測性能。
(a) 腫塊圖像1 (b) 腫塊圖像2
本文提出的基于多尺度特征的乳腺腫塊病變檢測方法的總體過程如圖2所示。從圖2中可以看到,乳腺鉬靶圖像先被輸入到基網(wǎng)絡中進行特征提取,本文采用的基網(wǎng)絡為ResNet-50網(wǎng)絡(只保留最后一個卷積層之前的部分,包括最后一個卷積層);再經(jīng)過附加的數(shù)個卷積模塊進行分析處理;選擇其中一些特征層,利用這些層的不同尺度的特征圖進行腫塊病變目標位置和目標類別的預測;最后將這些特征層的預測結果結合起來,經(jīng)過非極大值抑制去除冗余檢測框,得到最終的乳腺鉬靶圖像腫塊病變檢測結果。 這里將針對方法過程中的關鍵部分:附加特征層和多特征層預測,可做闡釋論述如下。
在基網(wǎng)絡后添加了一些特征層,這些特征層在尺度上逐層遞減。如此一來,這種設計就能進一步加深網(wǎng)絡,得到更抽象的特征,抽象的特征能使目標的分類更為準確;同時也有助于此后在不同尺度特征圖上的目標預測研究。不同特征層的不同尺度特征圖上的一個特征單元在原圖中對應的感知野大小也不同,因此在不同特征層的不同尺度特征圖上進行目標預測,可以對圖像中大小尺度不同的目標功能實現(xiàn)較好的檢測性能。本文在基網(wǎng)絡后添加3個卷積模塊,共6個卷積層,作為附加的多尺度特征層。該研究結構描述詳見表1。
表1 檢測網(wǎng)絡結構
多特征層預測是SSD方法的長足優(yōu)勢所在。這里將對此給出探討分述如下。
(1)在每個特征層上的預測設計??赏ㄟ^設定默認檢測框來實現(xiàn)。在預測時,SSD將對每個默認檢測框在圖像中所對應的區(qū)域進行目標類別預測和目標所在位置的預測。SSD針對可用于預測的特征圖中的每個特征單元(即m×n×p大小的特征圖中的一個1×1×p的特征單位),設定了多個默認檢測框,這些默認檢測框有不同的大小和長寬比,如圖3所示。其中,圖3(b)即以網(wǎng)絡結構中的卷積模塊2為例,展示了默認檢測框的具體設定情況。卷積模塊2中的特征圖大小為9×7×512,圖3 (b)為9×7大小的方格,劃分的每個方格都對應著特征圖中的一個特征單元。
(a) 腫塊標注圖像 (b) 默認檢測框
設定默認檢測框時,涉及的性能參數(shù)有默認檢測框大小和默認檢測框長寬比,而設定默認檢測框大小和長寬比都是為了確定該默認檢測框在原圖像中對應的區(qū)域范圍。其中,默認檢測框大小指的是某一預測特征層上的默認檢測框在原圖像中對應的感知區(qū)域的大小,長寬比指的是該感知區(qū)域的長度與寬度的比值。默認檢測框對應到原圖像的具體映射方式將在2.1節(jié)訓練部分予以詳述。每個特征層在預測時,即對每個默認檢測框在原圖中對應的區(qū)域進行目標類別的預測,并在原圖對應區(qū)域內進行坐標偏移量的回歸。
對于某一特征層m×n×p大小的特征圖,為得到腫塊目標定位和目標類別的預測結果,網(wǎng)絡采用大小為3×3×p的卷積核進行卷積。如果在每個特征單元上設定k個默認檢測框,圖像中共有c個目標種類(包括背景區(qū)域),那么用于腫塊目標定位預測的卷積濾波器個數(shù)為k×4,這里的4代表每個默認檢測框預測出來的目標位置坐標偏移,而用于目標類別預測的卷積濾波器個數(shù)為k×c,此處的c代表對每個默認檢測框的類別預測,預測結果是一個長度為目標類別數(shù)的向量,向量的每個維度表示該默認檢測框屬于該類別的置信度,即每個特征單元在預測時的輸出數(shù)量將為k×(c+4)。對于m×n×p大小的特征圖,利用k×(c+4)個卷積核大小為3×3×p的卷積濾波器進行卷積,得到(c+4)×k×m×n個輸出,如此就完成了在該特征圖上的目標預測。
(2)多特征層檢測結果的集成設計。用于預測的特征層,可以是基網(wǎng)絡中的某些層,也可以是附加的多尺度層。對多特征層的檢測結果進行集成,就是在訓練時將每一層的檢測結果與ground truth(真值,專業(yè)人員標注的腫塊病變區(qū)域)來做出比較,再將所有層與ground truth比較后的評估結果計入到損失函數(shù)中,并對該損失函數(shù)進行最小化訓練;測試時,只要將每一預測特征層的預測結果映射到原圖像中,同時通過非極大值抑制操作對冗余檢測框進行消除即可。這一部分將在2.1節(jié)訓練部分和2.2節(jié)測試部分中論證呈現(xiàn)。本文選擇了res3d、res5c、卷積模塊1、卷積模塊2、卷積模塊3、全局均值池化層作為預測特征層來對腫塊目標進行預測。為了使得檢測網(wǎng)絡能夠達到更好、更快的收斂,基網(wǎng)絡ResNet-50先在乳腺鉬靶圖像分類任務上預訓練了18 000次迭代。
在前文分析基礎上,研發(fā)推得本文訓練時的主題研究過程可詳見如下。
2.1.1 將默認檢測框映射到原圖中對應的感知區(qū)域
SSD通過設定默認檢測框大小和長寬比,來將默認檢測框映射到原圖中對應的感知區(qū)域。整個映射過程分為3個步驟。對此可做解析描述如下。
(1)找到默認檢測框中心在原圖中的對應位置。計算原圖相對于默認檢測框所在特征層的特征圖的縮放比例r,將默認檢測框中心在該特征圖中的坐標乘以r,就會得到該默認檢測框中心在原圖像中的對應位置。
(2)計算每個預測特征層的默認檢測框在原圖中對應感知區(qū)域的最小尺度和最大尺度(按邊長計)。被選中用于預測的特征層中的每個特征單元在原圖中對應的感知區(qū)域大小隨著層次增加而變大。SSD為層次最低和層次最高的特征層分別設定了最小和最大的感知區(qū)域,剩余的特征層在原圖中對應的感知區(qū)域范圍則在這最小感知區(qū)域和最大感知區(qū)域之間較為平均地順次分布。具體來說,假設這些被選中的用于預測的特征層對應原圖的最小感知區(qū)域和最大感知區(qū)域分別為Smin和Smax,S1,S2, ......,Sk是Smin和Smax之間從小到大排列的一些值(S均代表區(qū)域邊長),那么第一個預測特征層的最小感知區(qū)域為Smin,最大感知區(qū)域為S1,第二個預測特征層的最小感知區(qū)域為S1,最大感知區(qū)域為S2,…,第k個預測特征層的最小感知區(qū)域為Sk-1,最大感知區(qū)域為Sk,最后一個預測特征層的最大感知區(qū)域為Smax。
(3)根據(jù)每個預測特征層的默認檢測框在原圖中對應感知區(qū)域的最小尺度(記為Minsize)和最大尺度(記為Maxsize),以及默認檢測框的長寬比ar,劃定每個默認檢測框在原圖中的具體映射區(qū)域。每個長寬比ar對應2個長方形默認檢測框(如圖3 (b)所示的2個藍色矩形框),其在原圖映射區(qū)域的長和寬分別為:
(1)
除了設定的長寬比ar對應的默認檢測框之外,每個預測特征層的每個特征單元都有2個預先設定的正方形默認檢測框(如圖3(b)所示的2個紅色矩形框),其在原圖映射區(qū)域的邊長分別為:
(2)
2.1.2 匹配方式研究
對于匹配方式,在將預測的檢測框和ground truth框定的腫塊病變目標區(qū)域進行匹配時,為了保證每個ground truth區(qū)域都能獲得一個與其匹配的檢測框,首先為每個ground truth區(qū)域找到與其IoU值最大的檢測框進行匹配。除此之外,將任意一個與ground truth區(qū)域IoU值大于某一閾值(記為匹配閾值)的區(qū)域與其進行匹配。以該匹配方式進行訓練,不僅能使得最佳匹配的區(qū)域在預測時獲得較高置信度,也可以使得那些和ground truth區(qū)域匹配得較好的區(qū)域也在預測時獲得較高分,這樣與實際情況更貼合,能使得訓練結果更符合期待。本文在訓練時,將ground truth框定的區(qū)域和檢測框的匹配閾值設為0.2,而在自然圖像中,這個值一般為0.5、甚至是更高。這主要是以下2點原因造成的:一是由于乳腺鉬靶圖像上往往只有一個腫塊目標,有2個或是2個以上腫塊目標的情況特別少,將匹配閾值調低可以使得訓練時能匹配到更多的正樣本,否則正負樣本類別不平衡程度會過于嚴重,以至于難以訓練得到好的檢測結果。二是因為相比于自然圖像中的例如貓或者狗這樣的目標,腫塊病變的邊緣非常不清晰、不明確[9],在檢測時對腫塊病變進行準確定位的難度更大,因此需要對其降低匹配標準。
2.1.3 損失計算
乳腺腫塊病變檢測任務包含了2個子任務:腫塊檢測和腫塊分類。因此在衡量計算損失時,也由2部分組成,分別是:定位損失和分類損失[7]。研究推得的計算損失的數(shù)學運算公式可表示為:
(3)
在計算損失中,定位損失采用了平滑L1損失,并且(cx,cy,w,h)表示位置信息,(cx,cy)表示區(qū)域的中心坐標,w,h分別表示區(qū)域的寬和高[7]。定位損失的數(shù)學運算公式可見如下:
(4)
(5)
(6)
(7)
(8)
分類損失采用了softmax損失[7],其運算公式的數(shù)學表述如下:
(9)
(10)
2.1.4 訓練過程中的優(yōu)化研究
針對訓練過程中得到的樣本正負類別不平衡的問題,本文還采取了與文獻[7]中相同的措施。在訓練匹配階段,往往匹配到的正樣本的數(shù)量非常少。為了防止正、負樣本發(fā)生傾斜,訓練時并不將所有的負樣本都納入訓練樣本,而是從中隨機挑選出一部分,使得正、負樣本的比例為1:3。這種將正、負樣本比維持在合理范圍內進行訓練的做法,能夠使得網(wǎng)絡得到更好、更快的收斂。
為了訓練得到更魯棒的模型,在訓練過程中,本文采用與SSD[7]相同的重采樣數(shù)據(jù)增廣。對于輸入的乳腺鉬靶圖像,重新采樣與腫塊病變區(qū)域IoU值為0.1、0.3、0.5、0.7和0.9的區(qū)域,放縮到輸入圖像相同大小,作為新的輸入數(shù)據(jù)進行訓練。如果ground truth中心區(qū)域落在采樣區(qū)域內,那么就將采樣區(qū)域與ground truth交疊的部分作為該采樣區(qū)域的ground truth,否則就認為該采樣區(qū)域內不包含腫塊病變。
利用訓練過的SSD網(wǎng)絡模型對新的乳腺鉬靶圖像樣本進行測試,模型在每一個預測特征層進行目標預測,即對每個默認檢測框進行目標位置偏移和目標類別置信度的預測。當目標類別置信度大于設定的置信度閾值時,該默認檢測框的預測結果將會保留下來。這些被保留下來的檢測框可能會有冗余,如圖4所示,因此需要引入非極大值抑制(Non-maximum Suppression, NMS)處理對冗余檢測框進行抑制,使得對每個目標的檢測盡量只保留一個最優(yōu)框。
圖4 冗余檢測框
非極大值抑制的做法大致如下:將所有被預測為同一類別的檢測框按置信度高低進行排序,選出置信度最高的檢測框。再遍歷剩余該類別的檢測框,若和選中的置信度最高的檢測框的IoU值大于某一閾值(記為NMS閾值),則該檢測框就被舍去。從未處理的檢測框中再選出置信度最高的,重復上述過程。最后被保留下來的檢測框將在最終的檢測結果中呈現(xiàn)。本文將NMS閾值設定為0.1。因為相比于自然圖像,在乳腺鉬靶圖像中,發(fā)生冗余樣本框重疊的情況要少得多。
本文在DDSM數(shù)據(jù)庫上對提出的基于多尺度特征的乳腺腫塊病變檢測方法進行性能評估,驗證其有效性。實驗環(huán)境為Intel? CoreTMi7-4790k CPU和NVIDIA Tesla K40c GPU。對DDSM數(shù)據(jù)庫中的乳腺鉬靶圖像進行整理,挑選出包含腫塊的圖像用于乳腺腫塊病變檢測方法的性能評估,其中有良性腫塊圖像1 106張,惡性腫塊圖像1 160張。將乳腺鉬靶圖像放縮至1 152×896大小。若將圖像放縮得過大,在實驗時將會超出內存限制;若將圖像放縮得過小,那么腫塊區(qū)域將會變得過小,甚至是消失。本文實驗中,對整理出的DDSM數(shù)據(jù)庫中的乳腺鉬靶圖像進行90°、180°、270°旋轉,作為數(shù)據(jù)增廣。
在本文中,采用FROC(the Free Response Operating Characteristic Curve)曲線作為乳腺腫塊病變檢測的評測指標。FROC曲線是以平均每幅圖像的假陽性區(qū)域個數(shù)(False Positives per Image,FPI)為橫坐標,敏感度(Sensitivity)為縱坐標的曲線。其中,假陽性區(qū)域為檢測出是病變、但實際是正常的區(qū)域。FPI被定義為:
(11)
敏感度,即檢測出的病變區(qū)域個數(shù)占數(shù)據(jù)集中實際病變區(qū)域個數(shù)的比例,Sensitivity被定義為:
(12)
為驗證本文提出的基于多尺度特征的乳腺腫塊病變檢測方法的有效性,本文在DDSM數(shù)據(jù)庫上構建實驗,并與目前在DDSM數(shù)據(jù)庫上性能較優(yōu)的乳腺腫塊病變檢測方法的性能進行比較。
本文方法在DDSM數(shù)據(jù)庫上進行腫塊病變檢測的FROC曲線如圖5所示。從圖5中可以看到在平均每幅圖像的假陽性區(qū)域個數(shù)為一定時,本文提出的乳腺腫塊區(qū)域檢測方法分別對良性腫塊和惡性腫塊處理后得到的檢測敏感度。部分檢測結果的展示如圖6所示。圖像中的藍色矩形框區(qū)域是ground truth區(qū)域,紅色矩形框是本文方法檢測出來的top3的腫塊病變區(qū)域??梢钥闯龃蟛糠诸A測矩形框的中心都能與ground truth中心較好地重合,但在大小上仍有出入。檢測錯誤的矩形框大多處于乳腺區(qū)域邊緣(如圖6(b), 6 (c)所示),這是因為乳腺區(qū)域邊緣和腫塊邊緣有類似性質,邊緣兩側的區(qū)域有較大的對比度,這將需要在此后的研究中再繼續(xù)加以改進。
圖5 本文方法的FROC曲線
考慮到一些方法只有針對惡性腫塊進行檢測的檢測結果,因此僅在對惡性腫塊的檢測上與其它方法進行比較。比較的結果可見表2。由表2可知,分別比較了在敏感度(Sensitivity)為0.70、 0.75、 0.80、 0.88、 0.92時,平均每幅圖像假陽性區(qū)域個數(shù)(FPI)的大小。在Sensitivity相同的情況下,F(xiàn)PI越小意味著檢測器的性能越好。結果表明,本文提出的方法的檢測性能要遠遠勝過目前在DDSM數(shù)據(jù)庫上取得較好結果的數(shù)個方法,這就驗證了SSD網(wǎng)絡這種基于多尺度特征的方法應用于乳腺腫塊檢測任務上的有效性。
(a) 檢測結果1 (b) 檢測結果2
(c) 檢測結果3 (d) 檢測結果4
SensitivityFPIDhungel等人[10]Eltonsy等人[11]Sampat等人[12]本文方法0.704.00--0.680.754.80--0.860.80--1.000.920.85--1.501.050.88-2.402.701.440.92-5.40-1.92
本文將在自然圖像檢測領域性能較佳的SSD網(wǎng)絡應用到乳腺腫塊病變檢測任務中,提出了基于多尺度特征的乳腺腫塊病變檢測方法,該方法在不同層次不同尺度的特征層上對腫塊目標進行檢測。不同層次不同尺度的特征層中的每個神經(jīng)單元在原圖像中所對應的感知區(qū)域大小不同,因此每個特征層對某一尺度級別的目標的檢測性能相對于其它尺度級別更好。對不同層次不同尺度特征層的預測結果進行結合,可使得模型對尺度不一的目標都有較好的檢測結果。本文在DDSM數(shù)據(jù)庫上展開實驗驗證,結果表明基于多尺度特征的乳腺腫塊病變檢測方法的性能要優(yōu)于目前在DDSM數(shù)據(jù)庫上性能較佳的一些腫塊檢測方法,證實了本文方法的有效性。