包昌宇,彭俊川,胡楚婷,簡文靜,王先明△,劉維湘△
(1.深圳大學醫(yī)學部生物醫(yī)學工程學院,深圳 518055;2.廣東省醫(yī)學信息檢測與超聲成像重點實驗室,深圳 518060;3.醫(yī)學超聲關鍵技術國家地方聯(lián)合工程實驗室,深圳 518060;4.深圳市第二人民醫(yī)院,深圳大學醫(yī)學部第一附屬醫(yī)院甲乳外科,深圳 518035)
乳腺腫瘤的癥狀包括疼痛、皮膚增厚、乳頭溢液和乳房大小形狀的改變等,而乳腺腫瘤征象主要包括鈣化、腫塊、結構扭曲和對稱性征象等。其中,鈣化和腫塊是兩種最為典型的征象,見圖1。對乳腺腫瘤的治療,早期診斷和篩查尤為重要。在乳腺腫瘤篩查中,乳腺X光鉬靶檢查使用最廣泛,可以發(fā)現(xiàn)多種疾病癥狀,而且射線劑量低,不會危害女性健康。鉬靶檢查的常規(guī)投照體位為內外側斜位及頭尾位,正確的擺位是獲得高質量乳腺鉬靶圖像的基礎[5]。對于不同的女性,乳房中脂肪組織與結締組織的比例也不同。當乳房中的結締組織比例較高時,稱之為“致密性乳腺”。歐美國家大約有40%的女性屬于偏致密型,而在中國,這一比例高達70%[6]。
圖1 兩種典型的X線征象(a).鈣化征象;(b).腫塊征象Fig.1 Two typical X-ray signs
為提高診斷效率和減小誤診風險,針對乳腺鉬靶圖像開發(fā)基于人工智能的計算機輔助診斷系統(tǒng)(CAD)顯得尤為重要。在以前的研究中,已經證實CAD系統(tǒng)可以提高醫(yī)生對乳腺腫瘤診斷的準確性[7]。為了測量診斷系統(tǒng)的性能,廣泛使用準確率、靈敏度和特異度指數(shù)。另外,受試者工作特征曲線也是一種應用廣泛的評估方法,曲線下的面積定義為area under curve(AUC),可以清晰地說明分類器的效果,AUC的值在0.5和1之間,越接近1意味著性能越好。
近年來深度學習技術[8]發(fā)展迅速,作為一種多層神經網絡學習算法,能夠模擬人類神經網絡,通過組合多個非線性處理層從數(shù)據(jù)集中捕捉到潛在的深層特征,極大減少了人工提取特征的工作量[9]。因此,深度學習成為目前進行圖像特征提取和分類的主流方法。
基于深度學習的乳腺鉬靶圖像分類方法中,一種思路是將感興趣區(qū)域(region of interest,ROI)提取出來后再進行分類。但由于ROI標注需要醫(yī)生具備豐富的臨床經驗,并且該過程耗時耗力,所以當數(shù)據(jù)量特別大時,這項工作面臨巨大的挑戰(zhàn)。因此,針對鉬靶圖像全圖的分類是另一種有效的思路,能夠為該挑戰(zhàn)找到一個突破口。
針對ROI的分類方法,即先從乳腺鉬靶圖像中將ROI提取出來(包括自動檢測提取和手動檢測提取),然后再進行分類。
Sahiner等[10]最早于1996年將卷積神經網絡(conveolutional nural networks,CNNS)運用到乳腺鉬靶圖像的腫塊和正常組織的分類中。他們設計了一個具有三個輸入的三層卷積神經網絡,將紋理特征提取方法應用于ROI的子區(qū)域,然后將子區(qū)域上計算的特征排列形成紋理圖像,最后和ROI平均子采樣圖像一起輸入到卷積神經網絡進行訓練。在分類來自密歇根大學放射科168張腫塊圖像和504張正常組織圖像時的AUC達到0.87,靈敏度達到0.9,特異度達到0.69。表明通過訓練卷積神經網絡可以在乳腺鉬靶圖像上有效地進行腫塊和正常乳房組織的分類。
3.2.2 評價方法(1)期末操作考試按健康評估實訓教學大綱要求,實行評分標準一樣、操作項目一樣、考試時間一樣,兩組按學號抽簽考試,操作滿分為100分,60分為及格,90分以上為優(yōu)秀。實驗組和對照組平均成績以Mean表示,采用t檢驗;優(yōu)良率采用χ2檢驗進行統(tǒng)計學分析。
Arevalo等[11-12]提出了一個基于深度學習的乳腺腫塊分類框架。他們針對ROI設計神經網絡進行監(jiān)督訓練,最后提取網絡的倒數(shù)第二層作為表征,使用支持向量機進行訓練。在分類來自乳腺腫瘤數(shù)字數(shù)據(jù)庫(breast cancer digital repository,BCDR)子集BCDR-F03數(shù)據(jù)集的426張良性腫塊圖像和310張惡性腫塊圖像時的AUC達到0.826。
Dhungel等[13]將手工標注的腫瘤ROI和分割掩模輸入到卷積神經網絡中,通過回歸訓練使最后全連接層的輸出近似于手工特征,然后在頂層添加softmax層進行微調訓練,最后將模型的全連接層輸出作為特征訓練隨機森林分類器。在分類來自INbreast數(shù)據(jù)集的116張腫塊圖像時,AUC達到0.91,準確率達到95%。表明該方法與使用手工特征的機器學習模型和未經預訓練的深度學習模型相比,能夠產生更好的分類結果。
Sun等[14]開發(fā)了一種半監(jiān)督學習方案解決腫塊良惡性分類問題,該方法只需對訓練集中的小部分數(shù)據(jù)進行標記,通過標記數(shù)據(jù)訓練得到的分類器用于未標記的數(shù)據(jù),將共同置信度的數(shù)據(jù)附加到標記的數(shù)據(jù)集,然后用這部分數(shù)據(jù)去構建深度神經網絡。在來自全視野數(shù)字乳腺X線攝影(full-field eigital mammography)數(shù)據(jù)庫的1 724張良性腫塊圖像和1 434張惡性腫塊圖像上的AUC達到0.8818,準確率達到82.43%,表明了通過半監(jiān)督算法使用未標記數(shù)據(jù)可以顯著提高系統(tǒng)的性能。
Kooi等[15]在區(qū)分良性腫囊和惡性腫塊的問題上同樣使用了深度卷積神經網絡。他們訓練一個類似VGG結構的卷積神經網絡作為特征提取器,用非線性分類器對提取的特征進行分類訓練。在來自荷蘭一個篩查項目的1 108張良性腫囊圖像和696張惡性腫塊圖像上的AUC能達到0.8,表明了在分類良性腫囊和惡性腫塊上卷積神經網絡同樣具有巨大潛力。
Chougrad等[16]在提取ROI后使用VGG16、ResNet50和Inceptionv3三種預訓練好的模型進行微調,從而分類良性腫塊和惡性腫塊。在由DDSM、BCDR-F03和INbreast三個數(shù)據(jù)集組合的6 116張圖像上進行訓練,然后在MIAS數(shù)據(jù)集的113張圖像上的準確率達到98.23%,AUC達到0.99,表明了遷移學習的重要性。
Yu等[17]同樣通過深度網絡進行遷移學習,對比了GoogLeNet、AlexNet和CNN3三種模型對腫塊良惡性分類的性能。在來自BCDR-F03數(shù)據(jù)集的230張良性腫塊圖像和176張惡性腫塊圖像上進行實驗,發(fā)現(xiàn)三種模型之中GoogLeNet表現(xiàn)最佳,AUC達到0.88,準確率達到81%,同樣表明了遷移學習可以改善乳腺腫瘤的診斷。
Morrell等[18]提出了一個神經網絡架構,采用基于區(qū)域的完全卷積網絡(region-based fully convolutional networks,R-FCN)和可變形卷積網絡。該框架選擇R-FCN獲取圖像豐富的邊界框信息,提取出候選ROI后使用可變形位置敏感得分來生成每類的概率,在包含130 000個隱藏圖像的DREAMS挑戰(zhàn)中實現(xiàn)了0.879的AUC。
以上針對ROI的分類方法,大多涉及到病灶檢測提取階段,一種是手動病灶提取,另一種是自動病灶提取。手動病灶提取的分類效果要優(yōu)于自動病灶提取,但該過程耗時耗力,需要工作人員具備豐富的臨床知識。
針對全圖的分類方法,即根據(jù)整張圖像的整體特征信息進行性質分類。Zhu等[19]提出了基于全圖的端對端深度多示例網絡用于腫塊良惡性分類,并探索了三種不同的多示例學習方案,證明了稀疏多示例學習更加靈活。在INbreast數(shù)據(jù)集上的AUC達到了0.8586,準確率達到了90%,證明了多示例方法即使在訓練中沒有檢測和分割標注也能發(fā)揮出強大的性能。
Shen等[20]也開發(fā)了一種端到端的全圖乳腺腫瘤診斷算法,該算法使用了全卷積設計。他們先是訓練5分類(包括背景、良性鈣化、惡性鈣化、良性腫塊和惡性腫塊)圖像塊分類器,然后通過在圖像塊分類器的頂層添加卷積層以及修改輸入的大小將圖像塊分類器轉化成全圖分類器,并且該全圖分類器可以在僅使用少量訓練數(shù)據(jù)而不需要病變注釋的情況下遷移到其他數(shù)據(jù)集,從而實現(xiàn)了鉬靶圖像良惡性二分類。在CBIS-DDSM數(shù)據(jù)集上的AUC達到了0.88,而通過遷移學習在INbreast數(shù)據(jù)集上的AUC達到了0.96,表明了通過不依賴ROI標注的端到端方式訓練的深度學習模型可以實現(xiàn)準確的全圖乳腺腫瘤診斷。
Lotter等[21]介紹了一個多尺度卷積神經網絡的訓練策略。他們先是使用ResNet在鈣化和腫塊兩個不同尺度的圖像上單獨訓練圖像塊分類器,然后將訓練好的圖像塊分類器作為特征提取器,以滑動窗口的方式,提取每張圖像的最后一層特征,并在全局平均池化后進行連接,最后針對良惡性進行端到端的圖像級訓練,在DDSM數(shù)據(jù)集上的AUC達到了0.92,表明了多尺度框架選擇對于分類性能發(fā)揮著重要作用。
張娟等[22]提出了將卷積受限玻爾茲曼機模型用于解決鉬靶圖像正常、良性和惡性三分類問題的方法,并且采用改進的快速持續(xù)對比散度算法對模型進行訓練,在MIAS數(shù)據(jù)集上能達到88.63%的準確率和0.8912的精度。
Zhang等[23-24]將數(shù)據(jù)擴增、遷移學習和CNN模型相結合,從而訓練出針對鉬靶全圖的分類模型,并且發(fā)現(xiàn)對2D圖像的分類效果要優(yōu)于3D圖像。
Geras等[25]則建議使用多視圖深度卷積神經網絡來處理高分辨率的鉬靶圖像。他們構建了一個多尺度深度卷積神經網絡,在第一階段將許多卷積層和池化層分別應用于每個視圖,然后把這些視圖的表征連接成一個向量,在第二階段將這些向量輸入到全連接層,最后添加一個softmax層進行分類。在來自紐約大學醫(yī)學院數(shù)據(jù)集的886 437張圖像上,AUC達到0.733,證明了多視圖神經網絡可以輸入一組圖像,分類性能隨著樣本量的增加而提高,只有使用原始分辨率才能實現(xiàn)最佳性能。
Carneiro等[26-27]在研究中也發(fā)現(xiàn)多視圖相比單視圖,分類性能可以得到明顯改進。他們先使用卷積神經網絡給一側乳腺的兩個視圖以及對應的鈣化和腫塊掩模分別訓練,得到六個模型,然后提取六個模型的最后一個全連接層特征來訓練最終的CNN分類模型。在來自INberast數(shù)據(jù)集的410張圖像和DDSM數(shù)據(jù)集的680張圖像上實驗,對于手動病灶標注,良惡性二分類的AUC均超過0.9。后期他們改進了網絡設計,在多視圖網絡輸入上對比了2D和3D兩種輸入形式, 2D模型輸入為六張圖像,包括兩個視圖以及對應視圖的鈣化和腫塊掩模圖像;3D模型輸入為兩張分別由CC位或是MLO位以及對應視圖的鈣化和腫塊掩模疊加構成的圖像。對于手動病灶檢測,在INbreast數(shù)據(jù)集和DDSM數(shù)據(jù)集上的AUC均超過0.9。此外,在INbreast數(shù)據(jù)集上的特異度達到0.92,靈敏度達到0.69,而在DDSM數(shù)據(jù)集上的特異度達到0.97,靈敏度達到0.94。
Dhungel等[28]提出了一種多視圖深度殘差神經網絡(multi-view deep residual neural network,mResNet))。該方法由一組深度殘差網絡組成,輸入同樣為六張圖像,即一側乳腺兩個視圖以及對應視圖的鈣化和腫塊掩模圖像,然后通過連接每個ResNet的輸出以及在最后添加全連接層,形成mResNet,以端到端的形式進行訓練。在INbreast數(shù)據(jù)集上AUC達到0.8。同樣表明了將兩種視圖與病灶分割掩模結合起來,可以合理準確地分類乳腺鉬靶圖像。
除了乳腺鉬靶圖像的良惡性分類研究,在乳腺組織密度分類問題上,F(xiàn)onseca等[29]提出了一種基于卷積神經網絡的自動分類方法。該方法使用HT-L3卷積網絡提取圖像的高維特征,然后使用SVM進行分類訓練。在從秘魯立馬兩個醫(yī)療中心1 157名受試者采集的數(shù)據(jù)上實驗,準確率達到73.05%,kappa值達到0.5813,表明在乳腺組織密度分類上,卷積神經網絡方法也能夠展示出十分有意義的結果。
相比針對ROI的分類方法,針對全圖的分類方法有著較為明顯的優(yōu)勢。該方法通過對全局圖像提取特征來完成分類工作,能夠實現(xiàn)對乳腺鉬靶圖像的全局表征,無需再考慮各類病灶的結構信息,從而有效地避免了復雜的特征提取工作。但是該方法也同樣存在缺點,一方面其在臨床解釋性上表現(xiàn)較弱,無法準確指出病灶具體所在區(qū)域,另一方面由于其特征提取方法的單一性,易造成對多種病灶的描述性不足。
隨著乳腺腫瘤的輔助診斷越來越受到關注,對數(shù)據(jù)的需求也越來越大,研究人員在乳腺鉬靶圖像上進行分類實驗,一種是基于自有的數(shù)據(jù),另一種則是基于現(xiàn)有的公共數(shù)據(jù)集。自有數(shù)據(jù)一般比較雜亂,可能還缺乏專家的標記或注釋,病灶表述上也存在描述不確切的問題。而公共數(shù)據(jù)集由于成像設備不一致,成像質量及數(shù)據(jù)量存在很大差異,同一方法在不同數(shù)據(jù)集上可能會得到不同的效果。我們介紹了目前常用的乳腺鉬靶圖像公共數(shù)據(jù)集。
DDSM數(shù)據(jù)集[30]是來自美國放射學會(American college of radiology,ACR)的一個數(shù)據(jù)集。該數(shù)據(jù)集包含2 620例患者的10 480張圖像,包括了大量正常數(shù)據(jù)和癌癥患者數(shù)據(jù),每例患者包含四個視圖的鉬靶圖像,圖像格式為LJPEG格式,并且圖像具有多種分辨率。此外,該數(shù)據(jù)還提供了患者篩查的相關信息,以及由專業(yè)放射科醫(yī)生給定的ACR乳房密度、病灶的乳腺影像報告和數(shù)據(jù)系統(tǒng)(breast imaging reportingand data system,BI-RADS)分級和異常區(qū)域的分割金標準。CBIS-DDSM數(shù)據(jù)集[31]則是轉換為DICOM格式的DDSM數(shù)據(jù)集子集,由1 249例患者的2 584張圖像組成,其中753例包含鈣化,分別包括414例良性鈣化和339例惡性鈣化;891例包含腫塊,分別包括472例良性腫塊和419例惡性腫塊。
INbreast數(shù)據(jù)集[32]是來自葡萄牙的一個數(shù)據(jù)集。該數(shù)據(jù)集由115例患者的410張圖像組成,其中90例包含四個視圖的圖像,25例乳房切除手術患者包含一側乳房兩個視圖的圖像,圖像格式為DICOM格式,圖像分辨率有3 328×4 084像素和2 560×3 328像素兩種。該數(shù)據(jù)集給出了精確的病灶注釋(包括病灶分割金標準和BI-RADS分級),同時提供了患者篩查的相關信息和ACR乳房密度標注,以及專家對結果的準確評估。該數(shù)據(jù)集具有廣泛的病例變異性,包括了腫塊、鈣化、不對稱和紊亂幾種類型的病變。
MIAS數(shù)據(jù)集[33]是來自英國的一個數(shù)據(jù)集。該數(shù)據(jù)集包含161例患者的322張乳腺鉬靶圖像,其中正常圖像為54張,良性圖像為66張,惡性圖像為54張,圖像格式為PGM格式,圖像分辨率為1 024×1 024像素,且所有圖像均為MLO位視圖。此外,該數(shù)據(jù)集還給出了異常位置的中心點及半徑值。
BCDR數(shù)據(jù)集[34]是由葡萄牙波爾圖大學圣若昂醫(yī)學院提供的一個DICOM格式數(shù)據(jù)集。該數(shù)據(jù)集包含1 010個病例的相關臨床資料和3 703張圖像,圖像分辨率為720×1 168,同時還提供了分割金標準,以及分割病灶的BI-RADS分級。BCDR-F03是由良性和惡性腫塊圖像構成的二分類BCDR子集,包含344例患者的736張腫塊圖像,其中426張為良性腫塊,310張為惡性腫塊,該數(shù)據(jù)集在針對ROI的腫塊分類實驗上使用比較廣泛。
近幾年,研究人員一直致力于開發(fā)基于人工智能的CAD系統(tǒng),從而輔助醫(yī)生提高診斷水平。隨著深度學習的崛起,基于神經網絡的圖像分析也受到到越來越多的關注,把深度神經網絡應用到乳腺鉬靶圖像的分類上,能夠取得非常不錯的效果。無論是針對ROI的方法還是針對全圖的方法,基于卷積神經網絡的深度學習方法已經成為了分類的熱門技術。研究證明,在乳腺鉬靶圖像的大數(shù)據(jù)集上訓練CNN形式的深度學習模型,已經超越了計算機輔助檢測最先進的系統(tǒng)[35]。盡管如此,該技術仍然面臨著不少挑戰(zhàn)。
使用深度學習的方法,意味著大量的計算,一方面網絡內部本身參數(shù)眾多,另一方面鉬靶圖像具有高分辨率,這對設備內存和時間的要求非常高。因此,可以考慮使用輕量級網絡解決該問題。同時,大量的數(shù)據(jù)需求也是該方法面臨的一個巨大難題。針對小數(shù)據(jù)集,深度遷移學習和小樣本學習是不錯的選擇。此外,現(xiàn)有的公共數(shù)據(jù)集幾乎均來自歐美國家,而中國女性的乳房密度和歐美女性有較大差異,建立國人的公共數(shù)據(jù)集勢在必行。在未來的研究中,研究人員需要找到更可靠有效的方法去實現(xiàn)深度學習與CAD系統(tǒng)的完美結合,從而進一步提高系統(tǒng)的輔助診斷水平。