【作 者】郭磊,賀宏偉,王玉軍,王昌元,楊秀云,劉露
泰山醫(yī)學(xué)院,泰安市,271016
醫(yī)學(xué)圖像中成像部位的識別是醫(yī)學(xué)圖像處理的關(guān)鍵技術(shù),是實現(xiàn)臨床應(yīng)用中醫(yī)學(xué)圖像自動化處理的基礎(chǔ)。當前研究[1-3]通過構(gòu)建數(shù)字重建圖像,將成像部位的射野圖像與其進行自動配準,是放療定位及誤差分析的常見方法。區(qū)別于圖像配準方法,相關(guān)研究[4]提出通過提取圖像特征,執(zhí)行支持向量機算法進行成像部位和擺位方式識別的方法。該方法實現(xiàn)了X線圖像成像信息的自動檢測,但其準確率受到預(yù)先設(shè)定的圖像特征和支持向量機分類性能的限制,實驗過程對需識別的成像部位進行了限制。圖像特征人工選取在當前醫(yī)學(xué)圖像處理中有著廣泛應(yīng)用[5-6],然而提取的圖像特征往往由于維度過低或者缺乏代表性,影響醫(yī)學(xué)圖像處理結(jié)果的準確率。如何保證提取圖像特征的多維度和代表性,是當前醫(yī)學(xué)圖像處理研究的重要方面。
深度學(xué)習(xí)作為當今人工智能研究的熱點領(lǐng)域,在計算機視覺、語音識別、自然語言翻譯等方面表現(xiàn)出好于傳統(tǒng)方法的性能。它利用深度神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)進行前向傳播,通過多隱層拓撲結(jié)構(gòu)進行逐層反饋訓(xùn)練[7]。卷積神經(jīng)網(wǎng)絡(luò)作為一種深度神經(jīng)網(wǎng)絡(luò),其特定網(wǎng)絡(luò)結(jié)構(gòu),如卷積核、池化層、反向傳播訓(xùn)練算法的使用等,使其具備很強的特征自動提取和分類識別能力。卷積神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于圖像識別[8-10]和語義分割[11-13],使得圖像分類識別和語義分割的準確率顯著提高。鑒于卷積神經(jīng)網(wǎng)絡(luò)優(yōu)異的特征學(xué)習(xí)和分類能力,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于醫(yī)學(xué)圖像中成像部位識別過程,提高對圖像多維特征的表達能力,保證圖像特征的自動提取和分類識別的準確性,為自動圖像引導(dǎo)放療設(shè)備的研發(fā)提供方法和工具。
該文首先結(jié)合卷積神經(jīng)網(wǎng)絡(luò)當前研究提出并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);其次將并行卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于X線圖像成像部位識別;再次結(jié)合放療定位中X線圖像數(shù)據(jù)進行并行卷積神經(jīng)網(wǎng)絡(luò)識別的實驗分析;最后總結(jié)當前工作并探討下一步研究思路。
卷積神經(jīng)網(wǎng)絡(luò)是一類特殊的深層前向神經(jīng)網(wǎng)絡(luò)模型,其結(jié)構(gòu)一般包括輸入層、卷積層、池化層、全連接層(或全卷積層)及輸出層[14]。其中,輸入層通常是矩陣輸入,例如一幅數(shù)字圖像;卷積層是將上一層網(wǎng)絡(luò)輸出作為輸入,按照可學(xué)習(xí)的卷積核執(zhí)行卷積操作,通過特定激活函數(shù)獲得輸出特征圖;池化層是按照采樣策略,對上一層網(wǎng)絡(luò)輸入的采樣輸出;全連接層則將所有通道的二維圖像特征圖拼成一個一維特征向量作為輸入;輸出層是結(jié)合全連接層特征向量進行前向傳播的判定結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)的另一關(guān)鍵理論基礎(chǔ)是反向傳播算法,即完成網(wǎng)絡(luò)權(quán)重隨機初始化后,按照梯度下降方法沿判定結(jié)果誤差減小的方向調(diào)整網(wǎng)絡(luò)權(quán)重的過程。
圖像分類識別應(yīng)用中,AlexNet[8],VGG[9]和GoogLeNet[10]通過增加網(wǎng)絡(luò)層數(shù),達到更為優(yōu)異的分類識別性能;文獻[15]通過增加全連接層的層次深度和多卷積層并行連接的方式,獲得較為全面的圖像美感特征描述,實現(xiàn)較好的圖像美感分類效果;文獻[16]采用網(wǎng)絡(luò)中特定隱層跨連至全連接的方式,可以獲得不低于傳統(tǒng)卷積網(wǎng)絡(luò)的性別分類結(jié)果。文獻[17]采用信息熵描述低層級特征圖,采用區(qū)域平均的方法描述高層級特征圖,結(jié)合二者構(gòu)建具有較強表達能力的深度層次特征。
醫(yī)學(xué)圖像是對人體特定部位成像細節(jié)的展現(xiàn),其圖像特征可以通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和提取??紤]到醫(yī)學(xué)圖像中局部特征的多樣性,本文設(shè)計兩種尺寸的卷積核(圖1),用于學(xué)習(xí)和提取不同尺寸的圖像特征,然后基于兩種尺寸的卷積核分別實現(xiàn)兩類卷積神經(jīng)網(wǎng)絡(luò),進而通過并行連接方式組織并行卷積神經(jīng)網(wǎng)絡(luò)。
圖1 并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of parallel convolutional neural networks
圖1是用于X線圖像中成像部位識別的并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括18個層級,分別是輸入層、若干卷積層、池化層、全連接層和輸出層,圖1中下方標注層級序號,上方標注對應(yīng)層的通道數(shù)。輸入層接收256h256像素的3通道X線成像部位圖像。網(wǎng)絡(luò)對輸入信息逐層并行處理,其中上行網(wǎng)絡(luò)從L1至L15迭代執(zhí)行卷積核尺寸為2h2的卷積和步數(shù)為2的2h2下采樣,在L16實現(xiàn)包含1 024個神經(jīng)元的列向量全連接輸出;下行網(wǎng)絡(luò)從L1至L16的信息處理方式,除采用尺寸4h4的卷積核執(zhí)行卷積外,與上行網(wǎng)絡(luò)相同。網(wǎng)絡(luò)在L16、L17及L18合并上行網(wǎng)絡(luò)和下行網(wǎng)絡(luò)并實現(xiàn)層間全連接,其中L16輸出2h1 024維,L17輸出2h512維,L18采用softmax分類器輸出成像部位類別概率分布。
通過采用不同尺寸的卷積核,并行卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)不同尺寸的圖像特征的學(xué)習(xí)和提取;同時通過設(shè)置一定數(shù)目的卷積核,既可保證圖像特征具有更多維度,又能降低網(wǎng)絡(luò)訓(xùn)練的計算量。
成像部位識別是根據(jù)醫(yī)學(xué)圖像特征,采用特定方法實現(xiàn)成像部位分類的過程。為保證圖像特征提取的多維度和代表性,提高成像部位的識別準確率,將并行卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于成像部位識別。識別過程分為數(shù)據(jù)準備和模型實現(xiàn)兩個階段。
采用X線成像部位圖像數(shù)據(jù)作為并行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測試的數(shù)據(jù)集。訓(xùn)練集用來進行網(wǎng)絡(luò)訓(xùn)練,測試集用來測試經(jīng)過訓(xùn)練網(wǎng)絡(luò)的性能。按照拍攝部位和擺位方式不同將成像部位圖像分為57類,單類圖像設(shè)置訓(xùn)練樣本和測試樣本。成像部位圖像類別明細,如表1所示。
對于給定的訓(xùn)練數(shù)據(jù)集,并行卷積神經(jīng)網(wǎng)絡(luò)采用反向傳播算法更新所有連接權(quán)值和偏置,具體執(zhí)行過程如算法1所示。
算法1并行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練
初始條件:網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
輸入數(shù)據(jù):訓(xùn)練集S
1:隨機初始化所有的權(quán)值和偏置;
2:for all 訓(xùn)練樣本s ∈ 訓(xùn)練集S do{
計算樣本s的實際輸出;
for all 網(wǎng)絡(luò)層l ∈ 并行卷積神經(jīng)網(wǎng)絡(luò)PCNN反向逐層 do{
for all 通道c ∈ 網(wǎng)絡(luò)層級l所有通道 do{
計算網(wǎng)絡(luò)層l中通道c的反向傳遞誤差;
計算網(wǎng)絡(luò)層l中通道c的所有權(quán)值和偏置的偏導(dǎo)數(shù);
新網(wǎng)絡(luò)層l中通道c的所有的權(quán)值和偏置;
}
}
}
輸出數(shù)據(jù):網(wǎng)絡(luò)的權(quán)值和偏置。
算法執(zhí)行前,應(yīng)確定網(wǎng)絡(luò)采用的神經(jīng)元激活函數(shù)和更新權(quán)值和偏置的學(xué)習(xí)率,選擇具體訓(xùn)練策略,如訓(xùn)練批次、Dropout技術(shù)等。通過訓(xùn)練和測試的迭代,并行卷積神經(jīng)網(wǎng)絡(luò)識別準確率不斷提升。待識別準確率達到較高水平,即可結(jié)束訓(xùn)練。
前期工作已積累大量放療定位的X線圖像。實驗數(shù)據(jù)準備階段將X線圖像尺寸調(diào)整為256h256h3,按照成像部位分成57類;每類圖像分成訓(xùn)練集和測試集,分別設(shè)置訓(xùn)練樣本300個,測試樣本60個。為增加訓(xùn)練和測試數(shù)據(jù)量,對全部樣本沿圖像縱軸做180o反轉(zhuǎn)。從各類圖像的訓(xùn)練集中選取圖像特征清晰明顯的樣本200個,進行圖像局部平移或偏轉(zhuǎn)操作。最終形成包括57類成像部位,每類包含800個樣本的訓(xùn)練集和120個樣本的測試集。
實驗平臺搭建階段選用三臺16核心的虛擬機各自部署深度學(xué)習(xí)框架caffe,并分別實現(xiàn)圖1中上行網(wǎng)絡(luò)、下行網(wǎng)絡(luò)和并行網(wǎng)絡(luò)。網(wǎng)絡(luò)參數(shù)設(shè)置中,選取限制線性單元ReLU作為神經(jīng)元激活函數(shù),全連接采用Dropout技術(shù)并設(shè)置其比例為0.5,訓(xùn)練過程學(xué)習(xí)率取固定值10-5。對訓(xùn)練批次及訓(xùn)練樣本輸入網(wǎng)絡(luò)順序進行限定:每一批次均包含有全部成像部位類別的樣本且只有一個;每一類別訓(xùn)練樣本按照清晰度由高到低依次編入一個批次。因此,整個訓(xùn)練過程共執(zhí)行800批次,每個批次各有57個訓(xùn)練樣本。
實驗過程中,執(zhí)行一個批次訓(xùn)練任務(wù)用時1~2 min,隨著訓(xùn)練批次執(zhí)行,三類不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)損失率均逐步減小。為進一步定量分析神經(jīng)網(wǎng)絡(luò)的識別能力,設(shè)定神經(jīng)網(wǎng)絡(luò)每執(zhí)行100批次訓(xùn)練任務(wù),即對測試集所有樣本進行驗證識別,識別準確率為正確識別的樣本數(shù)占測試集樣本總數(shù)的比例。隨著訓(xùn)練批次執(zhí)行,三類結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)對測試集的識別準確率變化如表2所示。
表2 識別準確率變化情況/%Tab.2 Variations of the recognition accuracy
分析實驗數(shù)據(jù)可知,隨著訓(xùn)練批次執(zhí)行,三類結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)識別準確率逐步上升,相同批次訓(xùn)練的并行卷積神經(jīng)網(wǎng)絡(luò)性能要優(yōu)于單一的卷積神經(jīng)網(wǎng)絡(luò)。相比基于支持向量機的成像部位識別[4],該方法在保證較為全面拍攝部位和擺位方式的同時,取得較高的識別準確率。由此可見,并行卷積神經(jīng)網(wǎng)絡(luò)由于使用了兩種尺寸的卷積核,能夠?qū)W習(xí)和提取到更多有代表性的圖像特征,結(jié)合這些圖像特征的識別結(jié)果具有更高的準確率。
醫(yī)學(xué)圖像中成像部位的識別技術(shù)是醫(yī)學(xué)圖像自動化處理的基礎(chǔ)。卷積神經(jīng)網(wǎng)絡(luò)在圖像處理方面具有相較傳統(tǒng)方法的顯著性能優(yōu)勢。該文提出一種并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并將其應(yīng)用到X線圖像中成像部位的識別。實驗分析表明,并行卷積神經(jīng)網(wǎng)絡(luò)能夠提取更多維度和有代表性的圖像特征,較好實現(xiàn)醫(yī)學(xué)圖像中成像部位識別。下一步工作中,將繼續(xù)改進訓(xùn)練方法和積累訓(xùn)練樣本,優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進一步提高網(wǎng)絡(luò)性能和識別準確率。
[1]Ma B J, Larreyruiz J, Verdúmonedero R, et al. DRR and portal image registration for automatic patient positioning in radiotherapy treatment[J]. J Digit Imaging, 2011, 24(6): 999-1009.
[2]陳誠, 黃劭敏, 鄧小武, 等. 兆伏級放療射野圖像與模擬圖像自動配準算法研究[J]. 中華放射腫瘤學(xué)雜志, 2010, 19(3): 256-260.
[3]鄭亞琴, 田心. 一種射野圖像和參考圖像的自動配準方法[J]. 中國醫(yī)學(xué)物理學(xué)雜志, 2009, 26(6): 1481-1484.
[4]Chang X, Mazur T, Li H H, et al. A method to recognize anatomical site and image acquisition view in X-ray images[J]. J Digit Imaging, 2017, 27(6):1-10.
[5] Vallières M, Freeman C R, Skamene S R, et al. A radiomics model from joint FDG-PET and MRI texture features for the prediction of lung metastases[J]. Phys Med Biol, 2015, 60(14): 5471-5496.
[6]陸雪松,涂圣賢,張素. 一種面向醫(yī)學(xué)圖像非剛性配準的多維特征度量方法[J]. 自動化學(xué)報, 2016, 42 (9): 1413-1420.
[7]Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[8]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]. Inter Conf Neural Inform Proc Syst, 2012, 25(2): 1097-1105.
[9]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Comput Sci, 2014, 14(9): 1556-1569.
[10] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]. IEEE Conf CVPR, 2015, 10(63): 1-9.
[11] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]. IEEE Conf CVPR, 2015, 79(10): 3431-3440.
[12] Chen L, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. Comput Sci, 2014, 12(4): 357-361.
[13] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[J]. LNCS, 2015, 93(51): 234-241.
[14] Bouvrie J. Notes on convolutional neural networks[J]. Neural Nets,2006, 18(5): 162-169.
[15] 王偉凝, 王勵, 趙明權(quán), 等. 基于并行深度卷積神經(jīng)網(wǎng)絡(luò)的圖像美感分類[J]. 自動化學(xué)報, 2016, 42(6): 904-914.
[16] 張婷, 李玉鑑, 胡海鶴, 等. 基于跨連卷積神經(jīng)網(wǎng)絡(luò)的性別分類模型[J]. 自動化學(xué)報, 2016, 42(6): 858- 865.
[17] 李欽, 游雄, 李科, 等. 圖像深度層次特征提取算法[J]. 模式識別與人工智能, 2017, 30(2): 127-136.