徐 武,陳盈君,湯弘毅,楊昊東
(云南民族大學電氣信息工程學院,云南 昆明 650000)
舌圖象診斷是中醫(yī)望診學的重要診斷依據(jù),醫(yī)生通過觀察舌體確定疾病發(fā)生的部位及治療方法。智能化的出現(xiàn)決定了中醫(yī)學與現(xiàn)代化相結(jié)合的趨勢,有效利用現(xiàn)代科學技術(shù)豐富和發(fā)展中醫(yī)學成了主要研究方向。圖像診斷面臨的首要問題是,在舌圖像處理過程中,減少嘴唇、下巴、臉部等固定干擾因素以及其它無關(guān)噪音遮擋舌體等不固定因素的影響,可以在復(fù)雜場景下精確提取完整的舌體。傳統(tǒng)的舌圖像分割技術(shù)通過對比像素之間相似程度分割不同的區(qū)域,將目標區(qū)域與目標區(qū)域、目標區(qū)域與背景區(qū)域分割開。
文獻2在LAB顏色空間基礎(chǔ)上采用顏色增強算法起到了分割舌圖像的目的,此優(yōu)化算法減少了計算量,減少分割預(yù)測時間,但是對分割邊緣不能進行精確識別。文獻[3]提出了SegNet網(wǎng)絡(luò)用于舌圖像分割,有著較高的分割精度以及更快的分割速度,但是處理結(jié)果會丟失許多高頻細節(jié)信息。本文針對傳統(tǒng)的舌圖像分割技術(shù)存在的問題,提出舌圖像分割優(yōu)化算法。以傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)DeepLab v2為基礎(chǔ)設(shè)置帶孔卷積,改變池化層的參數(shù),增大特征圖譜,從而獲得更好的邊緣信息。針對采樣和分割過程中的無關(guān)噪音(如采樣過程中除舌體外物體的遮擋;分割過程中局部區(qū)域的丟失),提出了生成對抗網(wǎng)絡(luò)OSIM通過對特征圖進行解碼、編碼操作,以及通過計算損失函數(shù)的數(shù)值去判別與原圖像的相似性,得到抗干擾能力強的去噪結(jié)果。通過帶孔的金字塔網(wǎng)絡(luò)從淺至深地融合不同層級特征,深層信息使分割具有更好的魯棒性,淺層信息對細節(jié)部分進行更精確處理。
本文針對舌圖像提出DeepLab v2網(wǎng)絡(luò)分割的改進算法,可以從嘴唇、下巴、臉部等顏色相似的部位中有效地提取目標舌體區(qū)域,并且可以有效地還原被無關(guān)噪音遮擋的舌體區(qū)域,防止舌體輪廓丟失,有效提升了分割的精確性,顯著提升了算法的抗噪能力。
DeepLab v1是基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Networks)和概率圖模型(PGM,Probabilistic Graphical Model)的結(jié)合,提高了網(wǎng)絡(luò)性能且優(yōu)化了分割結(jié)果。DeepLab v2增加了多視野區(qū)域,并引入空間金字塔(ASPP, Atrous Spatial Pyramid Pooling)結(jié)構(gòu),融合不同級別的語義信息。
在使用DeepLab v2網(wǎng)絡(luò)提取舌圖像時,存在以下兩個主要問題:首先,由于舌體與周圍部位存在相似性,在提取過程中存在原始信息丟失的問題或者出現(xiàn)誤提取現(xiàn)象,這導(dǎo)致網(wǎng)絡(luò)深層的特征圖保留目標信息不完整,目標舌體將會不完整。其次是舌體角度、提取光線不能保證相同,這導(dǎo)致了舌體的原始數(shù)據(jù)空間混入無關(guān)噪音,原始噪音逐步傳遞給輸出特征圖,使得提取的舌體特征質(zhì)量下降,影響目標的識別和分割精度。
在DeepLab v2網(wǎng)絡(luò)的基礎(chǔ)上引入帶孔卷積算子起到保留圖像細節(jié),提升分割結(jié)果分辨率的作用。通過改變池化層的參數(shù)得到不同的網(wǎng)絡(luò)特征圖譜,在不增加參數(shù)的前提下,得到不同感受野尺寸,從而得到不同的語義信息和空間信息。在改變池化層參數(shù)的同時,要防止邊界信息損失過多,應(yīng)避免特征圖譜縮減過小。
傳統(tǒng)的DeepLab v2網(wǎng)絡(luò)存在5個最大池化層,在DeepLab v2網(wǎng)絡(luò)的conv1_x~ conv5_x卷積層中,每個池化層參數(shù)為r=2的前提下進行實現(xiàn),為了避免特征圖譜縮減過小,本文設(shè)置池化層的參數(shù)值,通過改變上一層池化層的參數(shù)控制下一層特征圖譜的尺寸。具體改進如下:將DeepLab v2網(wǎng)絡(luò)中conv4_x、conv5_x卷積層設(shè)置帶孔卷積算子,可以設(shè)置池化層參數(shù)改變輸出尺寸,第一、第二、第三層池化參數(shù)設(shè)置為r=2,第四和第五層池化參數(shù)設(shè)置為r=1,公式如下
(1)
j
、j
分別是輸入、輸出卷積層的特征圖尺寸,輸出尺寸如圖1所示。防止特征圖譜過度減小,這里需要保持最終特征圖為一個較大尺寸。在傳統(tǒng)DeepLab v2網(wǎng)絡(luò)中參數(shù)全設(shè)置為2的情況下,最終的特征圖(卷積網(wǎng)絡(luò)之后)比輸入圖像尺寸縮小32倍。而本文設(shè)置帶孔卷積算子,特征圖尺寸將縮小8倍,是原網(wǎng)絡(luò)特征圖最終尺寸的8倍,通過設(shè)置參數(shù)條件增大最終特征圖的尺寸,使邊緣信息更加精確化,起到保留圖像細節(jié),提升分割結(jié)果分辨率的作用。圖1 卷積層結(jié)構(gòu)
在采樣和分割過程中可能存在影響特征圖譜的無關(guān)噪音,這導(dǎo)致所得特征圖與真實特征圖出現(xiàn)偏差。為了減少無關(guān)噪音對結(jié)果的影響,設(shè)計生成對抗網(wǎng)絡(luò)OSIM作為修復(fù)模塊,如圖2所示,OSIM網(wǎng)絡(luò)可分為三部分,其一是生成器,作用是生成區(qū)域特征值;其二是局部判別器,作用是判斷還原新區(qū)域與原始區(qū)域是否符合;其三是全部判別器,作用是判斷還原后區(qū)域與完整舌體是否符合。主要原理是生成器對含有噪音遮擋區(qū)域進行迭代還原,通過局部判別器、全部判別器判斷還原的新區(qū)域符合真實舌體特征停止迭代。
圖2 OSIM網(wǎng)絡(luò)結(jié)構(gòu)
生成器的主要原理是,對于網(wǎng)絡(luò)中含有無關(guān)噪音遮擋的舌體圖像,生成器通過編碼網(wǎng)絡(luò)對原遮擋區(qū)域進行編碼分析并產(chǎn)成預(yù)測特征,將預(yù)測的新特征圖輸入到解碼網(wǎng)絡(luò),經(jīng)過全連接層將提取到的特征綜合起來,為提升無關(guān)噪音影響區(qū)域的還原精度,需要進行大量迭代實驗。
生成器的生成特征并不能有效地還原目標的輸入圖像,還需要通過判別器網(wǎng)絡(luò)進行判別生成的圖像是否符合原圖像。這里可以在編碼、解碼網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計出一個全局判別器和局部判別器進行判別。全局判別器和局部判別器都是以DeepLab v2網(wǎng)絡(luò)作為基礎(chǔ)結(jié)構(gòu),在conv5到池化層的基礎(chǔ)上并增加一個sigmoid分類層,因此全局、局部判別器具有相同的網(wǎng)絡(luò)結(jié)構(gòu)。全局判別器是引導(dǎo)還原后的遮擋區(qū)域在結(jié)構(gòu)上與其周圍區(qū)域相近,而局部判別器針對無關(guān)噪音區(qū)域的內(nèi)部細節(jié),引導(dǎo)還原后的特征在內(nèi)容上與真實特征相似。
為保證生成的新特征與真實舌體特征在內(nèi)容上相似,可以使用歐式距離來度量生成特征與真實特征之間的差異,生成器損失函數(shù)計算公式為
(2)
式中M
—特征圖上的像素點數(shù)量;x
—舌體的真實特征值;x
′—生成器產(chǎn)生的特征值局部、全局判別器的損失函數(shù)計算公式為E
- () [log(1-D
(G
(z
)))](3)
式中L
—局部判別器損失函數(shù);L
—全局判別器損失函數(shù);E
~()—真實數(shù)據(jù)分布E
~()—遮擋噪音分布;D
(x
)—生成數(shù)據(jù)的判別;G
(z
)—產(chǎn)生噪音的數(shù)據(jù)值OSIM
的總損失函數(shù)L
是生成器、局部判別器和全局判別器三部分損失函數(shù)的和,其計算公式為L
=L
+L
+L
(4)
在不同卷積層中,輸出特征圖存在不同的語義信息、空間信息和細節(jié)信息,高層卷積層更好地反映了語義信息;而在低層卷積層中,特征圖保留目標更多的細節(jié)信息以及空間信息?;贏trous卷積的空間金字塔采用并行結(jié)構(gòu),多個采樣率不同的Atrous卷積層獲得不同特征,通過不同比例獲取圖像上下文信息。為了目標特征更加豐富,通過引用基于Atrous的空間金字塔模塊,不僅可以融合多尺度的特征信息,還可以使分割結(jié)果具有更好的魯棒性。結(jié)構(gòu)如圖3所示。
圖3 基于Atrous卷積的空間金字塔結(jié)構(gòu)圖
本文所提出的融合改進DeepLab v2網(wǎng)絡(luò)和OSIM網(wǎng)絡(luò)算法采用的是一種串行結(jié)構(gòu),如圖4所示。該算法由3部分組成:1)含帶孔卷積算子的卷積層。2)OSIM去噪網(wǎng)絡(luò)。3)空間金字塔池化模塊。首先將原圖像輸入卷積層提取特征,引用帶孔卷積算子提升分割結(jié)果分辨率;然后通過OSIM網(wǎng)絡(luò)進行去噪處理,提升特征圖像精確性并對原圖像進行還原;最后通過基于Atrous卷積的空間金字塔融合多尺度特征信息。
圖4 融合算法
在舌圖像分割過程中,光照對舌體顏色呈現(xiàn)有很大影響,為了測試改進網(wǎng)絡(luò)在實際中的分割效果,本文選取了封閉環(huán)境下采集到的舌圖像進行測試。選取了一個具有嘴唇、下巴、臉部等干擾因素的典型圖片作為原始圖片,針對SegNet、Mask R-CNN、DeepLab v2和融合網(wǎng)絡(luò)進行分割效果的對比。
圖5 舌象分割圖
如圖5所示的實驗結(jié)果。從圖中可以看出,SegNet網(wǎng)絡(luò)對與舌體顏色相似的嘴唇和下巴部分區(qū)域分割精度較低;Mask R-CNN網(wǎng)絡(luò)分割出的舌體完整性較差,無法精確識別出邊緣區(qū)域;融合算法相對傳統(tǒng)DeepLab v2有更精確的邊緣處理能力,對不同角度的舌體有更好的分割效果。
針對各個方法的客觀分割精度進行測量以及對各個方法的模型測試時間進行統(tǒng)計。
本文采用的評價指標為平均交并比(mean Intersection over Union,mIoU),IoU是真實值與預(yù)測值的交集與并集之比,mIoU是交集與并集之比的平均值,它的結(jié)果可以直接反應(yīng)為算法處理的精度。計算公式如下
(5)
k
-類別個數(shù);p
-被預(yù)測為j
類中,類別為i
的像素的個數(shù);P
-類別為i
的同時被預(yù)測為i
類的像素之和表1給出了不同網(wǎng)絡(luò)的分割精度和單張圖像預(yù)測時間。
表1 不同網(wǎng)絡(luò)分割方法的性能比較
在中醫(yī)舌圖像分割中,由于mIoU可以直接評價分割算法精度,算法精度隨著mIoU值的增大而增大。實驗結(jié)果表明,改進算法的mIoU值和預(yù)測時間分別為97.81%和0.0028s,比DeepLab v2網(wǎng)絡(luò)提高了2.03個百分點,比Mask R-CNN、SegNet網(wǎng)絡(luò)提高了4.2個百分點和5.04個百分點;改進算法的預(yù)測時間與SegNet、DeepLab v2網(wǎng)絡(luò)相差無幾,相對Mask R-CNN網(wǎng)絡(luò)有大幅度提升。本文在DeepLab v2網(wǎng)絡(luò)的基礎(chǔ)上進行改進,分割精度遠遠高于其它算法,驗證了融合在保證速度沒有明顯降低的前提下,具有更好的分割精度。
圖6 帶無關(guān)噪音的舌象分割圖
如圖6所示的實驗結(jié)果。設(shè)計插入OSIM網(wǎng)絡(luò)的特征修復(fù)可以有效地識別出被無關(guān)噪音,并分割出完整的舌體圖像,但是消耗了額外的計算量。
為了更直接的驗證OSIM對遮擋模塊的處理能力,這里對比加入OSIM處理前的網(wǎng)絡(luò)1與加入OSIM處理后的網(wǎng)絡(luò)2,選用查全率P
、正確率P
作為模型性能的評價指標,(6)
(7)
其中查全率是還原出舌圖像的正確區(qū)域與實際的比值;正確率是指還原的錯誤區(qū)域與檢測出舌圖像的比值差。網(wǎng)絡(luò)2的查全率比網(wǎng)絡(luò)1提高了近24.
2個百分點,網(wǎng)絡(luò)2的正確率比網(wǎng)絡(luò)1提高了近11.
0個百分點,網(wǎng)絡(luò)2還原出舌圖像的正確區(qū)域遠遠高于網(wǎng)絡(luò)1,網(wǎng)絡(luò)2的還原錯誤區(qū)域遠遠下降,驗證了加入OSIM
處理的網(wǎng)絡(luò)1具有更高的修復(fù)能力和更好的抗干擾能力。表2 基于OSIM網(wǎng)絡(luò)還原的特征比較
針對嘴唇、下巴、臉部等固定干擾因素以及其它無關(guān)噪音遮擋舌體等不固定因素對舌圖像分割產(chǎn)生影響的問題,在傳統(tǒng)舌圖像分割的基礎(chǔ)上進行改進,將DeepLab v2網(wǎng)絡(luò)中卷積層設(shè)置帶孔卷積子并增加生成對抗網(wǎng)絡(luò)OSIM模塊進行分割,能夠在提高邊緣區(qū)域精度的同時,處理原始圖像中摻雜無關(guān)噪音和處理過程中目標區(qū)域丟失的問題,對不同環(huán)境具有一定的抗干擾能力。對比傳統(tǒng)的舌圖像分割,此方法在保證速度沒有明顯降低的前提下,大大提升了分割精度,并具備除噪能力,使舌圖像分割具有較高的實時性。