基于拓?fù)浣Y(jié)構(gòu)約束和特征增強(qiáng)的醫(yī)學(xué)影像標(biāo)志點(diǎn)定位算法①

2022-09-20 04:11:08張靈西

計(jì)算機(jī)系統(tǒng)應(yīng)用 2022年9期

關(guān)鍵詞：標(biāo)志點(diǎn)醫(yī)學(xué)影像空洞

張靈西

(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院, 上海 200438)

近年來, 人工智能技術(shù)的飛速發(fā)展在醫(yī)療領(lǐng)域受到廣泛關(guān)注. 與此同時(shí), 隨著醫(yī)學(xué)數(shù)據(jù)集的不斷擴(kuò)增、硬件計(jì)算能力的快速提升以及應(yīng)用算法的突破性進(jìn)展,人工智能在醫(yī)療場景中的技術(shù)積累日漸成熟, 應(yīng)用范圍逐步拓寬. 2019年1月, 由上海交通大學(xué)人工智能研究院領(lǐng)銜發(fā)布的《人工智能醫(yī)療白皮書》[1]中指出,人工智能在醫(yī)療領(lǐng)域應(yīng)用最廣的場景就是醫(yī)學(xué)影像分析, 該領(lǐng)域更是被業(yè)內(nèi)人士認(rèn)為是最有可能率先實(shí)現(xiàn)商業(yè)化的人工智能醫(yī)療領(lǐng)域.

醫(yī)學(xué)影像可以直觀地呈現(xiàn)人體內(nèi)部的解剖結(jié)構(gòu)與病灶信息, 通過醫(yī)學(xué)圖像便可觀察病人身體內(nèi)部器官、組織的變化情況, 是醫(yī)生在臨床診斷和手術(shù)規(guī)劃時(shí)的重要輔助手段. 在臨床實(shí)踐中, 往往首先需要根據(jù)人體骨骼結(jié)構(gòu)對醫(yī)學(xué)影像中的解剖標(biāo)志點(diǎn)進(jìn)行標(biāo)記,再通過這些標(biāo)志點(diǎn)和參考線計(jì)算相關(guān)的線段長度或測量角度, 進(jìn)而完成疾病的診斷[2]. 由此可見, 解剖標(biāo)志點(diǎn)定位的準(zhǔn)確性對于臨床影像分析具有重要意義. 深度學(xué)習(xí)為利用人工智能技術(shù)進(jìn)行醫(yī)學(xué)影像標(biāo)志點(diǎn)定位開辟了新的視角: 深度神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)大規(guī)模的醫(yī)學(xué)影像數(shù)據(jù), 對原始輸入圖片進(jìn)行多層非線性變換, 進(jìn)而實(shí)現(xiàn)從數(shù)據(jù)中歸納出從低級到高級的特征[3], 摒棄了傳統(tǒng)方法中根據(jù)領(lǐng)域知識手動提取特征的過程, 進(jìn)而使計(jì)算機(jī)自動完成解剖標(biāo)志點(diǎn)定位的影像分析任務(wù).

由此可見, 標(biāo)準(zhǔn)規(guī)范的影像數(shù)據(jù)及數(shù)據(jù)標(biāo)注是利用人工智能算法進(jìn)行醫(yī)學(xué)影像分析發(fā)展的基礎(chǔ). 然而,與自然圖像的獲取不同, 醫(yī)學(xué)影像的獲取十分艱難: 一方面, 訓(xùn)練樣本的獲取需要成本高昂的專業(yè)影像采集設(shè)備; 另一方面, 影像數(shù)據(jù)的標(biāo)注需要受過專門培訓(xùn)的專業(yè)醫(yī)生參與, 而由于臨床、科研任務(wù)重, 醫(yī)療專家往往沒有時(shí)間進(jìn)行大量的數(shù)據(jù)標(biāo)注工作. 因此, 醫(yī)學(xué)影像領(lǐng)域本身面臨著高質(zhì)量標(biāo)注數(shù)據(jù)匱乏的現(xiàn)實(shí). 在這種情況下, 如何利用醫(yī)學(xué)影像本身所固有的特點(diǎn), 進(jìn)一步提升網(wǎng)絡(luò)的特征提取能力, 更好地挖掘有限數(shù)據(jù)中更多的特征, 進(jìn)而實(shí)現(xiàn)自動化提取、測量和分析影像學(xué)表型, 對于輔助醫(yī)生快速診斷疾病具有重要的理論價(jià)值和現(xiàn)實(shí)意義, 不僅可以有效提升醫(yī)學(xué)影像自動讀片效率、降低患者就醫(yī)成本, 還可以在一定程度上緩解地區(qū)醫(yī)療水平差距大、醫(yī)療資源分布不均等社會問題.

本文提出了一種基于拓?fù)浣Y(jié)構(gòu)約束和特征增強(qiáng)的醫(yī)學(xué)影像標(biāo)志點(diǎn)定位算法, 使用多任務(wù)U-Net網(wǎng)絡(luò)[4]作為骨干網(wǎng)絡(luò), 利用醫(yī)學(xué)影像上各個(gè)標(biāo)志點(diǎn)之間形成的拓?fù)浣Y(jié)構(gòu)具有變換不變性這一特點(diǎn), 為網(wǎng)絡(luò)添加額外的約束; 通過為網(wǎng)絡(luò)引入多分辨率注意力模塊[5], 為不同分辨率下的特征圖生成不同分辨率的注意力信息,使網(wǎng)絡(luò)加強(qiáng)對重要特征信息的關(guān)注, 以避免圖像中其他冗余特征的干擾; 此外, 受啟發(fā)于空洞空間金字塔池化結(jié)構(gòu)(atrous spatial pyramid pooling, ASPP)[6], 本文通過使用多分支空洞卷積來實(shí)現(xiàn)增大感受野的目的, 多個(gè)分支并行操作可以同時(shí)捕獲不同尺度的上下文信息,且空洞卷積的使用也避免了參數(shù)量的增加.

本文的貢獻(xiàn)可總結(jié)為以下4個(gè)方面:

(1)考慮到各個(gè)解剖標(biāo)志點(diǎn)之間的拓?fù)潢P(guān)系存在結(jié)構(gòu)不變性的特點(diǎn), 本文為深度神經(jīng)網(wǎng)絡(luò)加入拓?fù)浣Y(jié)構(gòu)約束, 并提出結(jié)構(gòu)不變性損失來增強(qiáng)網(wǎng)絡(luò)的特征提取能力.

(2)通過在網(wǎng)絡(luò)內(nèi)部嵌入多分辨率注意力機(jī)制, 為不同分辨率的特征圖生成不同分辨率的注意力系數(shù)圖,幫助網(wǎng)絡(luò)提取與標(biāo)志點(diǎn)更相關(guān)的特征.

(3)通過在低層特征和高層特征的融合階段引入多分支空洞卷積層, 在不增加網(wǎng)絡(luò)參數(shù)量的情況下實(shí)現(xiàn)增大卷積層感受野的作用范圍, 使網(wǎng)絡(luò)更好地感知上下文信息.

(4)本文在公開數(shù)據(jù)集上驗(yàn)證了提出算法的有效性. 實(shí)驗(yàn)表明, 本文算法在各個(gè)指標(biāo)上超過了當(dāng)前主流的解剖標(biāo)志點(diǎn)定位算法.

1 相關(guān)工作

醫(yī)學(xué)影像解剖標(biāo)志點(diǎn)定位是臨床診斷中非常重要的預(yù)處理步驟, 是制定醫(yī)學(xué)治療計(jì)劃的基礎(chǔ)環(huán)節(jié). 在實(shí)踐中, 往往需要首先對重要的解剖標(biāo)志點(diǎn)進(jìn)行準(zhǔn)確定位、測量, 進(jìn)而才能完成如骨齡預(yù)測[7]、膝關(guān)節(jié)手術(shù)[8]、骨盆外傷手術(shù)[9]及頜面部手術(shù)[10]等醫(yī)學(xué)診療任務(wù).

傳統(tǒng)的解剖標(biāo)志點(diǎn)定位方法大致可分為兩類: 基于模型的方法和基于回歸的方法[11]. 基于模型的方法根據(jù)預(yù)定義的模板迭代地找到最佳的標(biāo)志點(diǎn)位置, 并通過形狀模型調(diào)節(jié)全局空間形狀[12,13]; 基于回歸的方法則直接從圖像特征回歸標(biāo)志點(diǎn)坐標(biāo)[14]. 除此之外, 還有部分學(xué)者提出了基于先驗(yàn)知識的邊緣檢測方法[15,16],然而此類方法只能成功檢測位于清晰邊緣的標(biāo)志點(diǎn),且先驗(yàn)知識的引入使得算法對解剖結(jié)構(gòu)變化較為敏感,降低了算法的泛化能力.

隨著人工智能技術(shù)的不斷發(fā)展, 學(xué)術(shù)界已經(jīng)提出了一系列基于深度學(xué)習(xí)的醫(yī)學(xué)影像解剖標(biāo)志點(diǎn)定位方法, 此類方法利用深度神經(jīng)網(wǎng)絡(luò)自動地學(xué)習(xí)圖像特征并進(jìn)行標(biāo)志點(diǎn)定位, 避免了傳統(tǒng)方法依賴手工定義特征的弊端, 不僅提升了標(biāo)志點(diǎn)定位的準(zhǔn)確程度, 且減少了定義特征的人力和時(shí)間成本.

基于深度學(xué)習(xí)的解剖標(biāo)志點(diǎn)定位算法的主要思路是輸入圖像和對應(yīng)的標(biāo)志點(diǎn)坐標(biāo), 深度神經(jīng)網(wǎng)絡(luò)自動挖掘圖像特征并選出圖像上概率最大的像素點(diǎn)作為預(yù)測坐標(biāo), 通過不斷降低預(yù)測坐標(biāo)和真實(shí)坐標(biāo)之間的損失以不斷優(yōu)化網(wǎng)絡(luò)參數(shù), 進(jìn)而實(shí)現(xiàn)標(biāo)志點(diǎn)自動定位.Zhang等人[17]提出了一種兩階段的深度學(xué)習(xí)方法, 在第1階段利用基于回歸模型的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)局部圖像和目標(biāo)解剖標(biāo)志點(diǎn)之間的內(nèi)在關(guān)聯(lián), 在第2階段進(jìn)一步建模各個(gè)局部圖像之間的關(guān)聯(lián), 進(jìn)而實(shí)現(xiàn)在有限的訓(xùn)練數(shù)據(jù)上實(shí)時(shí)聯(lián)合檢測多個(gè)解剖標(biāo)志點(diǎn). Oh等人[18]提出了一個(gè)新的頭影測量標(biāo)志點(diǎn)檢測框架, 該框架通過引入局部特征擾動器(local feature perturbator,LFP)和解剖上下文損失(anatomical context loss, AC loss), 使得卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練期間可以學(xué)習(xí)更豐富的解剖上下文特征. Chen等人[10]提出了基于自注意力模塊的方法, 該方法可以提取語義增強(qiáng)的多層次融合特征, 以提升標(biāo)志點(diǎn)定位的精度. Payer等人[19]將空間結(jié)構(gòu)信息引入深度神經(jīng)網(wǎng)絡(luò)來定位標(biāo)志點(diǎn), 從而利用標(biāo)志點(diǎn)之間的結(jié)構(gòu)關(guān)系預(yù)測標(biāo)志點(diǎn)在圖片各個(gè)像素上出現(xiàn)的概率. 此外, 對于3D影像數(shù)據(jù), Yang等人[8]提出可以將3D空間視為2D正交平面的組合, 使用常規(guī)卷積神經(jīng)網(wǎng)絡(luò)處理3組獨(dú)立的2D磁共振圖像(magnetic resonance imaging, MRI)切片, 并將3D位置定義為3個(gè)2D切片的交點(diǎn).

然而, 現(xiàn)有方法大多具有以下3個(gè)主要問題:

(1)標(biāo)志點(diǎn)定位過程中未能挖掘醫(yī)學(xué)影像本身固有的特點(diǎn). 醫(yī)學(xué)影像中的解剖結(jié)構(gòu)往往相對固定, 而標(biāo)志點(diǎn)位置通常與解剖結(jié)構(gòu)密切相關(guān). 以上方法大多利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力, 未能針對醫(yī)學(xué)影像固有的結(jié)構(gòu)特點(diǎn)進(jìn)行優(yōu)化.

(2)特征提取過程中缺乏對顯著特征的關(guān)注. 深度神經(jīng)網(wǎng)絡(luò)提取的特征圖中不同位置的特征往往對于預(yù)測結(jié)果有著不同的重要程度, 有的特征對于預(yù)測標(biāo)志點(diǎn)位置至關(guān)重要, 而有的特征對于預(yù)測結(jié)果作用較小,屬于冗余特征. 冗余特征的存在為實(shí)現(xiàn)精準(zhǔn)的標(biāo)志點(diǎn)定位帶來額外開銷.

(3)特征融合的過程中缺乏對上下文信息的利用.醫(yī)學(xué)影像中的器官位置及骨骼結(jié)構(gòu)等信息通常有助于判斷解剖標(biāo)志點(diǎn)的位置, 而這些信息則蘊(yùn)含在更大的感受野之中. 但傳統(tǒng)的卷積操作只能對局部特征進(jìn)行處理, 往往忽略了上下文特征所帶來的額外信息.

因此, 本文立足于醫(yī)學(xué)影像本身固有的結(jié)構(gòu)特點(diǎn),提出基于拓?fù)浣Y(jié)構(gòu)約束和特征增強(qiáng)的醫(yī)學(xué)影像標(biāo)志點(diǎn)定位算法, 利用標(biāo)志點(diǎn)之間拓?fù)潢P(guān)系的結(jié)構(gòu)不變性構(gòu)建額外約束, 通過多分辨率注意力機(jī)制和多分支空洞卷積結(jié)構(gòu)提升網(wǎng)絡(luò)對精細(xì)特征的提取能力以及上下文信息的感知能力, 使得網(wǎng)絡(luò)可以更好地挖掘醫(yī)學(xué)影像的結(jié)構(gòu)和語義, 并提取魯棒性更強(qiáng)的特征, 進(jìn)而取得更好的標(biāo)志點(diǎn)定位效果.

2 網(wǎng)絡(luò)結(jié)構(gòu)與算法原理

考慮到醫(yī)學(xué)影像數(shù)據(jù)一般較少, 且圖像中的語義和結(jié)構(gòu)都對預(yù)測標(biāo)志點(diǎn)坐標(biāo)具有重要意義, 所以網(wǎng)絡(luò)預(yù)測時(shí)不僅需要利用高層語義特征, 還需要同時(shí)考慮低層結(jié)構(gòu)特征. 因此, 本文使用可以同時(shí)結(jié)合低層特征和高層特征的U-Net[20]作為主干網(wǎng)絡(luò), 提出一種新的解剖標(biāo)志點(diǎn)定位模型, 模型整體流程如圖1所示.

圖1 標(biāo)志點(diǎn)定位整體流程

為避免網(wǎng)絡(luò)直接預(yù)測坐標(biāo)具有較大的偏差, 本文使網(wǎng)絡(luò)同時(shí)預(yù)測熱點(diǎn)圖(heatmap)和偏移圖(offset map), 其中熱點(diǎn)圖表示標(biāo)志點(diǎn)在圖中每個(gè)像素位置出現(xiàn)的概率, 偏移圖表示標(biāo)志點(diǎn)與真實(shí)標(biāo)志點(diǎn)之間的坐標(biāo)偏移, 分為x軸和y軸兩個(gè)方向. 將輸入圖片和經(jīng)仿射變換后的圖片輸入到深度神經(jīng)網(wǎng)絡(luò), 對于原圖使用根據(jù)真實(shí)坐標(biāo)計(jì)算的熱點(diǎn)圖和偏移圖構(gòu)建損失函數(shù);對于仿射變換的圖片, 由于標(biāo)志點(diǎn)之間形成的拓?fù)浣Y(jié)構(gòu)也將發(fā)生相同的仿射變換, 因此, 此時(shí)網(wǎng)絡(luò)預(yù)測的熱點(diǎn)圖和偏移圖, 與輸入原圖時(shí)預(yù)測的熱點(diǎn)圖和偏移圖之間, 可構(gòu)成一種額外的結(jié)構(gòu)約束, 使網(wǎng)絡(luò)更好地學(xué)習(xí)圖像結(jié)構(gòu), 并基于此構(gòu)建結(jié)構(gòu)不變性損失, 最后模型將結(jié)合兩部分損失得到標(biāo)志點(diǎn)坐標(biāo)的預(yù)測結(jié)果.

用于預(yù)測熱點(diǎn)圖和偏移圖的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示. 對于輸入的醫(yī)學(xué)影像, 神經(jīng)網(wǎng)絡(luò)提取不同分辨率的特征圖, 同時(shí)為不同分辨率的特征圖計(jì)算各個(gè)像素的重要程度, 以生成不同分辨率的注意力系數(shù)圖,實(shí)現(xiàn)加強(qiáng)對重要特征的關(guān)注, 削弱冗余特征的影響. 通過將U-Net網(wǎng)絡(luò)每一層級的普通的上采樣部分改為多分支空洞卷積結(jié)構(gòu), 使得網(wǎng)絡(luò)可以同時(shí)感知多尺度的上下文特征, 進(jìn)而能夠更好地確定標(biāo)志點(diǎn)位置. 網(wǎng)絡(luò)將經(jīng)注意力加權(quán)后的低層特征與對應(yīng)層級的高層特征進(jìn)行拼接后得到新特征, 將該特征輸入解碼器經(jīng)過上采樣再得到下一層級的高層特征, 通過上述方式, 網(wǎng)絡(luò)不僅可以加強(qiáng)對重要特征的關(guān)注, 還可以同時(shí)考慮不同尺度的上下文信息, 提升了網(wǎng)絡(luò)的特征提取能力.

圖2 模型結(jié)構(gòu)圖

2.1 多任務(wù)U-Net網(wǎng)絡(luò)

U-Net網(wǎng)絡(luò)采用編碼器-解碼器結(jié)構(gòu), 編碼器部分通過下采樣操作得到多個(gè)分辨率的低級特征圖, 解碼器部分通過上采樣操作將低級特征圖逐層上升為與編碼器相應(yīng)層級相同的分辨率, 直至恢復(fù)為原圖分辨率.網(wǎng)絡(luò)在每一層級采用跳躍連接(skip connection)來結(jié)合同層級的高級特征圖和低級特征圖, 并使用拼接后的特征圖作為該層級的上采樣層輸入. 這種方式結(jié)合了低層特征所包含的信息, 避免直接使用最后一層特征進(jìn)行損失計(jì)算, 通過利用多尺度特征有效提升網(wǎng)絡(luò)精度.

本文使用多任務(wù)U-Net網(wǎng)絡(luò)[4]同時(shí)預(yù)測熱點(diǎn)圖和偏移圖, 對于圖片X中坐標(biāo)為( xi,yi) 的第i個(gè)標(biāo)志點(diǎn), 其熱點(diǎn)圖可由高斯函數(shù)計(jì)算, 如式(1)所示:

本文中使用二值交叉熵?fù)p失函數(shù) Lh來懲罰預(yù)測熱點(diǎn)圖和真實(shí)熱點(diǎn)圖之間的差異, 使用L1損失函數(shù) Lo來懲罰坐標(biāo)偏移. 令 fh(X)表示網(wǎng)絡(luò)預(yù)測的熱點(diǎn)圖,fo(X)表示網(wǎng)絡(luò)預(yù)測的坐標(biāo)偏移圖, 為了使熱點(diǎn)圖和偏移圖所包含的信息進(jìn)行有機(jī)的結(jié)合, 損失函數(shù)的構(gòu)建將同時(shí)考慮熱點(diǎn)圖和偏移圖對預(yù)測結(jié)果的約束, 這部分的損失函數(shù)Llabel如式(3)所示, 其中, α 為權(quán)重系數(shù),I(λ) 為指示函數(shù), 表示只考慮熱點(diǎn)圖值高于閾值λ 的像素.

網(wǎng)絡(luò)輸出的熱點(diǎn)圖、x軸偏移圖和y軸偏移圖均為19個(gè)通道, 每個(gè)通道代表對一個(gè)標(biāo)志點(diǎn)的預(yù)測信息.在檢測階段, 根據(jù)網(wǎng)絡(luò)預(yù)測的坐標(biāo)偏移圖, 對所有熱點(diǎn)圖值高于λ 的像素點(diǎn)進(jìn)行投票, 將第i個(gè)通道中的獲勝位置作為第i個(gè)標(biāo)志點(diǎn)的最終預(yù)測結(jié)果.

2.2 拓?fù)浣Y(jié)構(gòu)約束

受啟發(fā)于等價(jià)標(biāo)志點(diǎn)變換[21], 本文提出基于仿射變換的拓?fù)浣Y(jié)構(gòu)約束方法, 根據(jù)標(biāo)志點(diǎn)之間拓?fù)浣Y(jié)構(gòu)的整體性質(zhì)構(gòu)建額外的約束, 使網(wǎng)絡(luò)可以學(xué)習(xí)到更魯棒的標(biāo)志點(diǎn)特征.

給定圖像 X和仿射變換T , X′=T(X,θ)表示圖像X經(jīng)仿射變換T 后的結(jié)果, θ為仿射變換參數(shù), 此時(shí)圖像X′上的標(biāo)志點(diǎn)坐標(biāo)也將發(fā)生相同的仿射變換. 因此, 將圖像X′輸入到深度神經(jīng)網(wǎng)絡(luò) f所得到的結(jié)果, 應(yīng)當(dāng)與原圖像X 輸入到神經(jīng)網(wǎng)絡(luò) f所得到的結(jié)果遵循同樣的仿射變換, 即存在 f(T(X,θ))=T(f(X,θ)), 圖3為拓?fù)浣Y(jié)構(gòu)約束的示意圖, 以旋轉(zhuǎn)變換為例.

圖3 拓?fù)浣Y(jié)構(gòu)約束(以旋轉(zhuǎn)為例)

基于此, 利用圖像中標(biāo)志點(diǎn)所形成的拓?fù)浣Y(jié)構(gòu)經(jīng)過仿射變換后自相似的性質(zhì), 通過分別對比圖像變換前后網(wǎng)絡(luò)輸出的熱點(diǎn)圖以及偏移圖之間的相似程度,可以構(gòu)成一種額外的約束, 使網(wǎng)絡(luò)能夠捕獲標(biāo)志點(diǎn)之間所蘊(yùn)含的結(jié)構(gòu)信息, 進(jìn)而提取魯棒性更強(qiáng)的特征, 本文中使用MSE損失函數(shù)來懲罰圖像變換前后網(wǎng)絡(luò)的預(yù)測差異來構(gòu)建結(jié)構(gòu)不變性損失, 如式(4)所示:

該部分也需同時(shí)考慮熱點(diǎn)圖和偏移圖的信息, 因此該部分的損失函數(shù)Lstructure如式(5)所示, 其中α 為權(quán)重系數(shù),為指示函數(shù).

此時(shí), 模型總的損失函數(shù)如式(6)所示:

2.3 多分辨率注意力機(jī)制

U-Net網(wǎng)絡(luò)可以獲取不同分辨率的特征圖, 進(jìn)而得到不同比例下的標(biāo)志點(diǎn)信息, 然而原始的U-Net網(wǎng)絡(luò)只是簡單地把低層特征和高層特征進(jìn)行拼接, 無法實(shí)現(xiàn)加強(qiáng)對圖像中重要區(qū)域的關(guān)注. 本文通過引入注意力門控(attention gate, AG)模塊[5], 使編碼器獲取的低層特征在經(jīng)過注意力門控調(diào)整之后, 再與解碼器得到的高層特征進(jìn)行拼接, 進(jìn)而加強(qiáng)網(wǎng)絡(luò)對顯著特征的關(guān)注, 并抑制不相關(guān)的冗余特征的影響.

注意力門控模塊搭載于U-Net網(wǎng)絡(luò)的跳躍連接部分, 其結(jié)構(gòu)如圖4所示. g為解碼器部分經(jīng)上采樣得到的特征圖, x為編碼器部分經(jīng)下采樣得到的特征圖. 首先分別將g 和 x 經(jīng) 過1×1卷積Wg和Wx降低通道數(shù), 再將得到的兩部分特征圖相加并通過ReLU函數(shù)進(jìn)行非線性激活, 然后將激活后的特征圖經(jīng)過1×1卷積ψ 轉(zhuǎn)化為單通道的特征圖, 最后對該特征圖施加Sigmoid函數(shù)得到注意力系數(shù)圖 A tt. 通過這種方式計(jì)算得到的注意力系數(shù)圖, 強(qiáng)調(diào)了在低層特征圖和高層特征圖中同時(shí)重要的區(qū)域. A tt的計(jì)算方式如式(7)所示.

圖4 注意力門控模塊

通過在不同層級的跳躍連接加入注意力模塊, 可以獲得不同分辨率下的注意力系數(shù)圖. 在訓(xùn)練過程中,注意力系數(shù)圖將不斷進(jìn)行更新, 從而使網(wǎng)絡(luò)可以逐漸修正重要特征的位置信息, 最終實(shí)現(xiàn)對不同分辨率特征圖中重要區(qū)域的關(guān)注, 提升模型的特征提取能力.

2.4 多分支空洞卷積結(jié)構(gòu)

在對醫(yī)學(xué)影像進(jìn)行解剖標(biāo)志點(diǎn)定位時(shí), 通常需要考慮器官位置及骨骼結(jié)構(gòu)等額外信息, 故而需要增大網(wǎng)絡(luò)的感受野以使模型能夠捕獲更多的上下文特征.網(wǎng)絡(luò)的感受野大小由卷積核的大小所決定, 而更大的卷積核在帶來更大感受野的同時(shí)也引入了更多的參數(shù).空洞卷積[6]通過在卷積核中插入權(quán)值為0的空洞實(shí)現(xiàn)在不增加模型參數(shù)量的情況下增大網(wǎng)絡(luò)感受野, 卷積核各值之間的間距稱為擴(kuò)張率, 對于擴(kuò)張率為r, 卷積核大小為 k ×k的空洞卷積, 其感受野的計(jì)算方式如式(8)所示. 圖5為擴(kuò)張率為2, 卷積核大小為3×3的空洞卷積示意圖.

圖5 空洞卷積示例

本模塊旨在利用多尺度感受野以獲得更豐富的特征信息, 達(dá)到提升標(biāo)志點(diǎn)定位精度的目的. 受啟發(fā)于語義分割任務(wù)中常用的ASPP結(jié)構(gòu)[6], 本文提出一種適用于醫(yī)學(xué)影像標(biāo)志點(diǎn)定位的多分支空洞卷積結(jié)構(gòu), 并將其應(yīng)用于模型的解碼器部分. 每個(gè)分支使用不同擴(kuò)張率的空洞卷積層, 不同的分支提取不同尺度的上下文信息, 使解碼器在融合低層特征與高層特征的過程中,可以在更大程度上捕獲像素特征之間的相關(guān)性, 進(jìn)而更好地恢復(fù)圖像的空間位置等信息.

定義多分支空洞卷積結(jié)構(gòu)的參數(shù)為( k,R), 其中k 表示卷積核大小, R表示各個(gè)分支擴(kuò)張率的組合, 即R=(r1,r2,···,rn) , 其中, r1,r2,···,rn分別表示n 個(gè)分支上的n種不同的擴(kuò)張率, 該部分結(jié)構(gòu)如圖6所示.

圖6 多分支空洞卷積

將不同擴(kuò)張率的空洞卷積提取的不同尺度的特征圖分別經(jīng)過批歸一化和ReLU激活層后進(jìn)行通道拼接,再使用1×1卷積將拼接后的新特征降低通道數(shù), 輸入接下來的上采樣層. 通過這種方式, 不僅解決了特征融合的過程中缺乏對上下文信息的利用這一問題, 并且在不增加參數(shù)量和計(jì)算量的基礎(chǔ)上使網(wǎng)絡(luò)可以更好地關(guān)注多尺度特征, 進(jìn)而提升網(wǎng)絡(luò)預(yù)測標(biāo)志點(diǎn)的準(zhǔn)確性.

3 實(shí)驗(yàn)及分析

本文基于公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 首先探究損失函數(shù)中權(quán)重系數(shù)α 對模型性能的影響; 隨后探究多分支空洞卷積結(jié)構(gòu)的不同擴(kuò)張率組合對模型性能的影響; 接著將本文算法與目前公開發(fā)表的論文中先進(jìn)的算法進(jìn)行對比, 實(shí)驗(yàn)結(jié)果表明本文提出的算法在各個(gè)指標(biāo)上取得了更好的效果; 最后對網(wǎng)絡(luò)的不同模塊進(jìn)行消融實(shí)驗(yàn), 以驗(yàn)證拓?fù)浣Y(jié)構(gòu)約束、多分辨率注意力機(jī)制和多分支空洞卷積結(jié)構(gòu)對于提升模型性能的有效性; 最后對本文算法的定位效果進(jìn)行結(jié)果展示.

3.1 數(shù)據(jù)集介紹

X光頭影測量分析可用于正頜外科的輔助診斷,以弄清畸形的特征, 并進(jìn)一步進(jìn)行治療設(shè)計(jì)及療效預(yù)測. 本文使用IEEE ISBI 2015 Challenge提供的頭影測量標(biāo)志點(diǎn)定位公開數(shù)據(jù)集[22]進(jìn)行實(shí)驗(yàn), 該數(shù)據(jù)集收集了400位病人的400幅頭影測量X光圖片, 并分為150張訓(xùn)練集和250張測試集. 數(shù)據(jù)集中每幅圖片的像素大小為1935×2400, 每個(gè)像素大小為0.1×0.1 mm2, 包含19個(gè)頭顱解剖標(biāo)志點(diǎn)的標(biāo)記信息, 每個(gè)標(biāo)志點(diǎn)由兩名醫(yī)生進(jìn)行手動標(biāo)記和檢查. 數(shù)據(jù)集中的原始頭影測量X光片及其上標(biāo)注的19個(gè)標(biāo)志點(diǎn)如圖7所示,19個(gè)標(biāo)志點(diǎn)的詳細(xì)信息如表1所示.

圖7 頭影測量X光片及19個(gè)標(biāo)志點(diǎn)

表1 19個(gè)解剖標(biāo)志點(diǎn)詳細(xì)信息

3.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)中網(wǎng)絡(luò)的編碼器部分使用ImageNet[23]上預(yù)訓(xùn)練的VGG-19網(wǎng)絡(luò)[24]. 由于本文使用的數(shù)據(jù)集中圖片分辨率較高, 因此將圖片縮放至800×640大小,并歸一化至[-1, 1]區(qū)間. 模型在4個(gè)NVIDIA GeForce RTX 2080 Ti GPU上進(jìn)行訓(xùn)練, 批大小設(shè)置為4, 初始學(xué)習(xí)率設(shè)置為0.001, 每150次迭代乘以0.1減小學(xué)習(xí)率, 權(quán)值衰減系數(shù)設(shè)置為0.000 1, 共迭代300次, 閾值λ參考Yao等人[4]設(shè)置為0.6. 拓?fù)浣Y(jié)構(gòu)約束部分每張圖片僅發(fā)生一種仿射變換, 每種變換以均等概率發(fā)生,其具體參數(shù)如表2所示, 變換示例如圖8所示, 從左至右分別為旋轉(zhuǎn)變換、放縮變換、平移變換、翻轉(zhuǎn)變換.

表2 仿射變換參數(shù)

圖8 仿射變換示例

3.3 評價(jià)指標(biāo)

本文中采用IEEE ISBI 2015 Challenge提供的平均徑向誤差和成功檢測率作為評價(jià)指標(biāo), 以評估算法效果.歐氏距離, 計(jì)算方式如式(9)所示, 其中表示第i 張圖上第l 個(gè)預(yù)測標(biāo)志點(diǎn)和真實(shí)標(biāo)志點(diǎn)在x軸上的絕對誤差,表示在y軸上的絕對誤差, n 為圖片張數(shù). 該指標(biāo)

(1)平均徑向誤差(mean radial error, MRE): 用于衡量算法所獲取的標(biāo)志點(diǎn)位置與真實(shí)標(biāo)志點(diǎn)位置之間的取值越低, 表明算法預(yù)測的標(biāo)志點(diǎn)位置越準(zhǔn)確.

(2)成功檢測率(successful detection rate, SDR): 用于衡量算法檢測標(biāo)志點(diǎn)的精確度, 計(jì)算方式如式(10)所示, 其含義為如果預(yù)測的標(biāo)志點(diǎn)和真實(shí)標(biāo)志點(diǎn)之間歐氏距離不大于z mm, 則此標(biāo)志點(diǎn)的檢測將被視為精確檢測, 否則被視為錯(cuò)誤檢測. 該指標(biāo)越高表示算法的成功檢測率越高. 為方便同主流方法進(jìn)行對比, 本實(shí)驗(yàn)中使用與其他主流方法中相同的誤差范圍z, 即2 mm、2.5 mm、3.0 mm、4.0 mm.

3.4 損失函數(shù)權(quán)重系數(shù)實(shí)驗(yàn)

本部分實(shí)驗(yàn)用于探究損失監(jiān)督學(xué)習(xí)與自監(jiān)督學(xué)習(xí)的損失函數(shù)中權(quán)重系數(shù)α 的不同取值對實(shí)驗(yàn)結(jié)果的影響. α代表了熱點(diǎn)圖損失和偏移圖損失之間的權(quán)重比例, 當(dāng)α 取值越高時(shí), 表明熱點(diǎn)圖損失所占權(quán)重越高. 實(shí)驗(yàn)結(jié)果如表3所示, 表中加粗?jǐn)?shù)字表示最優(yōu)結(jié)果.

表3 損失函數(shù)權(quán)重系數(shù)實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明, α取值為3時(shí)模型效果最好. 當(dāng)α＜3時(shí), 模型性能大體上隨著α 的增加而上升, 原因在于代表概率的熱點(diǎn)圖包含了比偏移圖更重要的信息, 因此提升其權(quán)重有助于模型性能的提高; 當(dāng)α ＞3時(shí), 模型性能反而隨著α 的增加而下降, 原因在于熱點(diǎn)圖權(quán)重過高時(shí), 其所包含的誤差信息權(quán)重也隨之增加, 削弱了偏移圖所包含的正確信息的作用.

3.5 多分支空洞卷積參數(shù)實(shí)驗(yàn)

本部分實(shí)驗(yàn)用于探究多分支空洞卷積模塊的不同擴(kuò)張率組合對實(shí)驗(yàn)結(jié)果的影響, 其中空洞卷積的卷積核大小設(shè)置為3, 即參數(shù) k =3, 參數(shù)R 選取不同的取值組合. 實(shí)驗(yàn)結(jié)果如表4所示, 表中加粗?jǐn)?shù)字表示最優(yōu)結(jié)果.

表4 多分支空洞卷積參數(shù)實(shí)驗(yàn)結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出, 較大的擴(kuò)張率對于模型性能有一定的提升作用, 其原因在于較大的擴(kuò)張率可以更好地?cái)U(kuò)大模型的感受野, 使模型可以更多地感知上下文特征, 避免了普通卷積核僅使用局部特征帶來的局限性. 當(dāng)參數(shù) R 的取值為R =(r1=1,r2=2,r3=5)時(shí),模型效果最優(yōu), 此時(shí)3個(gè)分支的感受野大小分別為3×3, 5×5, 11×11.

3.6 對比實(shí)驗(yàn)

在頭影測量標(biāo)志點(diǎn)定位的公開數(shù)據(jù)集上, 將本文所提出的算法與當(dāng)前主流算法進(jìn)行對比, 實(shí)驗(yàn)結(jié)果如表5所示, 表中加粗?jǐn)?shù)字表示最優(yōu)結(jié)果.

表5 不同算法對比實(shí)驗(yàn)結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出, 本文提出的模型效果在各個(gè)指標(biāo)上均超過了當(dāng)前主流算法, 這得益于模型在加入拓?fù)浣Y(jié)構(gòu)約束后, 能夠更好地學(xué)習(xí)到醫(yī)學(xué)影像中蘊(yùn)含的解剖結(jié)構(gòu)信息, 且多分辨率注意力機(jī)制和多分支空洞卷積的使用也使得模型可以更有效地提取圖像特征, 從而提升標(biāo)志點(diǎn)定位的準(zhǔn)確程度.

3.7 消融實(shí)驗(yàn)

本部分實(shí)驗(yàn)用于探究模型中各個(gè)模塊對結(jié)果的作用, 以探究拓?fù)浣Y(jié)構(gòu)約束、多分辨率注意力機(jī)制和多分支空洞卷積對標(biāo)志點(diǎn)自動定位效果的影響, 實(shí)驗(yàn)結(jié)果如表6所示, 表中加粗?jǐn)?shù)字表示最優(yōu)結(jié)果.

表6 消融實(shí)驗(yàn)結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出, 加入拓?fù)浣Y(jié)構(gòu)約束后, 模型效果優(yōu)于未使用拓?fù)浣Y(jié)構(gòu)約束的效果, 這表明拓?fù)浣Y(jié)構(gòu)約束對于模型性能有提升作用, 且SDR指標(biāo)的提高表明拓?fù)浣Y(jié)構(gòu)約束也提升了模型的魯棒性; 加入多分辨率注意力機(jī)制后, 模型在各個(gè)指標(biāo)上的表現(xiàn)均有提高, 這表明該機(jī)制有效增強(qiáng)了對圖像中重要特征的關(guān)注, 并提升了模型預(yù)測的準(zhǔn)確率; 引入多分支空洞卷積之后, 模型的性能進(jìn)一步提高, 說明不同尺度的上下文信息有助于模型預(yù)測標(biāo)志點(diǎn)位置. 消融實(shí)驗(yàn)結(jié)果驗(yàn)證了拓?fù)浣Y(jié)構(gòu)約束、多分辨率注意力機(jī)制和多分支空洞卷積對提升模型性能的有效性.

3.8 結(jié)果展示

19個(gè)解剖標(biāo)志點(diǎn)各自的MRE如圖9所示, 從圖中可以看出, 所有點(diǎn)的MRE均在2.5 mm以內(nèi), 17個(gè)點(diǎn)的MRE達(dá)到2.0 mm以內(nèi), 且1、7、8、9、12、15號標(biāo)志點(diǎn)的MRE可以達(dá)到1.0 mm以內(nèi), 由此可見本文算法具有較高的定位精度, 而如4、16號標(biāo)志點(diǎn)的MRE較高, 這可能是由于不同人的個(gè)體差異導(dǎo)致這兩個(gè)標(biāo)志點(diǎn)在不同人的影像上位置有一定偏差, 對這些標(biāo)志點(diǎn)進(jìn)行有針對性的優(yōu)化也是未來的改進(jìn)方向之一.

圖9 19個(gè)解剖標(biāo)志點(diǎn)的MRE

圖10為部分測試集圖片的解剖標(biāo)志點(diǎn)定位效果展示, 第1排為原始圖像, 第2排為真實(shí)標(biāo)志點(diǎn)與預(yù)測標(biāo)志點(diǎn)之間的誤差對比圖像, 其中藍(lán)色為真實(shí)標(biāo)志點(diǎn), 綠色為預(yù)測標(biāo)志點(diǎn).

圖10 解剖標(biāo)志點(diǎn)定位效果展示(真實(shí)標(biāo)志點(diǎn): 藍(lán); 預(yù)測標(biāo)志點(diǎn): 綠)

由圖10可見, 雖然不同影像中顱骨的形態(tài)有所不同, 但本文算法依然可以在較低的誤差范圍內(nèi)定位標(biāo)志點(diǎn)位置, 由此可見本文算法在醫(yī)學(xué)影像解剖標(biāo)志點(diǎn)定位任務(wù)上的優(yōu)越性能.

4 總結(jié)

醫(yī)學(xué)影像標(biāo)志點(diǎn)定位的準(zhǔn)確性對于臨床診療具有重要意義. 本文針對醫(yī)學(xué)影像標(biāo)志點(diǎn)定位任務(wù)當(dāng)前所面臨的問題, 提出了一種基于拓?fù)浣Y(jié)構(gòu)約束和特征增強(qiáng)的標(biāo)志點(diǎn)定位算法, 根據(jù)標(biāo)志點(diǎn)所形成的拓?fù)浣Y(jié)構(gòu)具有結(jié)構(gòu)不變性的特點(diǎn), 為網(wǎng)絡(luò)添加額外約束, 使網(wǎng)絡(luò)提取更魯棒的特征, 以實(shí)現(xiàn)網(wǎng)絡(luò)對解剖結(jié)構(gòu)信息的利用; 多分辨率注意力機(jī)制的引入使模型更加關(guān)注重要的圖像區(qū)域, 網(wǎng)絡(luò)自動學(xué)習(xí)注意力系數(shù)圖并為不同的空間特征分配不同的權(quán)重, 以提升模型的特征提取能力; 多分支空洞卷積結(jié)構(gòu)在不增加模型參數(shù)量和計(jì)算量的情況下增大網(wǎng)絡(luò)的感受野, 實(shí)現(xiàn)對不同尺度上下文信息的融合利用, 進(jìn)一步提升了模型性能. 基于公開數(shù)據(jù)集的實(shí)驗(yàn)表明, 本文提出的算法獲得了較高的識別精度, 為目前公開發(fā)表的論文中性能較優(yōu)的水平, 具有定位效果好、魯棒性強(qiáng)的特點(diǎn). 未來在獲得更多類型的醫(yī)學(xué)影像數(shù)據(jù)后, 將在更廣泛的數(shù)據(jù)集上驗(yàn)證本文算法的有效性.