• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中醫(yī)舌象分割技術研究進展:方法、性能與展望

    2021-06-20 10:10:44盧運西李曉光張輝
    自動化學報 2021年5期
    關鍵詞:舌體舌象卷積

    盧運西 李曉光 張輝 張 菁 卓 力,3

    舌診是中醫(yī)學望診的重要內(nèi)容,醫(yī)生可通過觀察舌象的變化,了解人體生理功能和病理變化[1].20世紀80 年代以來,隨著計算機技術的不斷更新發(fā)展,科研工作者開始將數(shù)字圖像處理技術應用于舌診客觀化研究當中.采集到的中醫(yī)舌圖像除了舌體以外,往往還包含臉部等背景區(qū)域,而這些區(qū)域?qū)ι嘣\起不到太大作用.為了避免這些區(qū)域?qū)罄m(xù)分析處理造成干擾,需要將舌體區(qū)域分割出來.同時,舌體自動分割的精確性會直接影響舌象特征分析相關算法的性能,精準的舌圖像分割方法是舌診客觀化研究中的一項重要技術.

    在舌體分割中,舌體大小和形狀的差異以及舌體顏色與嘴唇顏色相近等客觀因素大大增加了舌體分割的難度,使得傳統(tǒng)的舌圖像舌體分割方法在分割自動化程度和分割精度上有待進一步提升.此外,封閉環(huán)境具有穩(wěn)定的光照環(huán)境,對舌體分割算法更有利,現(xiàn)有的舌圖像自動分割方法主要研究應用于封閉式采集環(huán)境;開放式采集環(huán)境的舌圖像分割問題受到光照和圖像質(zhì)量的影響,則更加難以解決.因此,利用圖像處理、機器學習等領域的最新研究算法提升舌圖像的分割精度具有重要意義.現(xiàn)有的舌體自動分割方法大致可以分為兩類:基于傳統(tǒng)技術的分割方法和基于深度學習的分割方法.

    本文對基于傳統(tǒng)技術的中醫(yī)舌圖像分割方法和基于深度學習的中醫(yī)舌圖像分割方法進行總結(jié)歸納,并采用我們臨床采集和網(wǎng)絡收集的舌象數(shù)據(jù)集對典型算法進行網(wǎng)絡訓練和性能評估.同時,我們對這些算法的特點進行分析和討論.本文結(jié)構安排如下:第1 節(jié)簡要回顧基于傳統(tǒng)技術的中醫(yī)舌象分割方法;第2 節(jié)具體介紹基于深度學習的中醫(yī)舌象分割技術,著重對目前基于深度學習的中醫(yī)舌象分割技術及典型方法進行梳理;第3 節(jié)對深度學習舌象分割方法的關鍵問題進行分析與討論;最后,給出結(jié)論與展望.

    1 基于傳統(tǒng)技術的中醫(yī)舌象分割方法

    1.1 基于圖像特征的舌體分割方法

    基于圖像特征的舌體分割方法是利用圖像的像素值特征實現(xiàn)的,即目標區(qū)域內(nèi)的相鄰像素值具有相似性,而目標區(qū)域邊界處的相鄰像素值則存在間斷性或不連續(xù)性.根據(jù)側(cè)重點的不同,又進一步將這類舌體分割方法劃分為區(qū)域分割技術、邊緣檢測技術以及結(jié)合特定理論工具的分割技術[2].

    1.1.1 區(qū)域和邊緣檢測分割技術

    區(qū)域分割是根據(jù)區(qū)域數(shù)值的相似性和空間的接近性,按照特定的評判標準將像素分配到某個區(qū)域,進而把這些像素與圖像背景區(qū)域分開.可分為基于閾值的區(qū)域分割技術、特征空間聚類和基于種子點的區(qū)域自增長技術等方法.Kim 等[3]提出了一種區(qū)域增長的方法,首先對舌圖像進行下采樣、直方圖均衡化及邊緣增強等預處理,再進行過分割操作獲得大于目標區(qū)域的部分,之后利用區(qū)域增長技術實現(xiàn)區(qū)域融合,根據(jù)檢測到的局部最小值確定舌體邊緣,最后采用邊緣平滑操作實現(xiàn)舌體分割.一種結(jié)合亮度和粗糙度信息的舌象分割方法[4]采用自定義的亮度信息,利用最大類間方差法自動選取舌圖像亮度的閾值,初步提取出舌體較亮的部分,然后利用粗糙度剔除非舌體部分,最后采用數(shù)學形態(tài)學方法實現(xiàn)舌體分割.基于動態(tài)閾值和修正模型的舌體提取算法[5]利用色調(diào)–亮度–飽和度(Hue-intensitysaturation,HIS)色彩模型去除嘴唇和臉部區(qū)域,并利用動態(tài)閾值分割方法提取舌體初始輪廓,最后運用舌體修正模型得到分割結(jié)果.趙忠旭等[6]將HIS色度空間的H 分量進行圖像二值化,利用聚類算法去除非舌的背景區(qū)域,然后運用形態(tài)學方法去噪,最后得到舌體分割結(jié)果.Chen 等[7]利用基于Lab 顏色空間的顏色增強算法實現(xiàn)了一種新的舌圖像分割方法,該方法將分割速度大大提高,但是存在分割邊緣過于粗糙的問題,分割效果圖如圖1(a)所示.李丹霞等[8]提出的基于自適應閾值的舌象分割方法,首先把舌圖像分割成多個圖像子塊,不斷迭代計算出每個子塊的最優(yōu)閾值,然后根據(jù)局部最優(yōu)閾值構成的閾值矩陣進行分割,最終實現(xiàn)舌象分割.

    蔣依吾等[9]提出的方法先檢測包含舌體的矩形區(qū)域,之后進行對比度增強、二值化操作,最后通過邊界檢測方法得到舌體邊緣.Zhi 等[10]通過人工植入邊緣種子點,并利用B 樣條(B-spline)方法擬合函數(shù)以得到目標區(qū)域的邊緣信息提高分割可靠性.文獻[11] 假設舌根與唇之間總是存在一塊黑色陰影區(qū)域,利用先驗知識搜索局部直方圖最優(yōu)閾值可以準確提取陰影邊緣.文獻[7] 基于HSV 空間中的色調(diào)通道,得到閾值控制函數(shù),然后提取感興趣的區(qū)域,并在區(qū)域內(nèi)使用顏色增強方法.最后,使用Lab顏色空間中的亮度特征來獲得完整的輪廓.Li 等[12]使用直方圖投影和基于學習的數(shù)字模板從醫(yī)學圖像中提取舌體.

    基于區(qū)域的分割技術和邊緣檢測的方法大都是利用圖像的顏色信息進行特征區(qū)域和邊緣的劃分,但是舌圖像較為復雜,臉部、嘴唇和舌頭的顏色較為接近,該類方法存在不穩(wěn)定性,分割準確性有待提升.

    1.1.2 特定理論工具分割技術

    文獻[13] 在實現(xiàn)舌體的定位時采用了Adaboost 方法,并在獲取輪廓時結(jié)合極坐標變換法和顏色對消法,然后實現(xiàn)舌圖像分割.一種基于核模糊聚類的舌圖像分割方法[14],為了實現(xiàn)舌體與背景分離,通過提取舌圖像的顏色、位置和紋理等特征并進行聚類.Liu 等[15]將特征提取的方法應用到舌體區(qū)域提取,并利用支持向量機(Support vector machine,SVM)算法在多光譜圖像中提取舌體,結(jié)果如圖1(b)所示.文獻[16] 利用直方圖投影和基于學習的數(shù)字摳圖方法對舌體進行提取,但是該方法在光照不均勻時難以獲得準確的舌圖像分割結(jié)果,分割效果不理想.文獻[17] 根據(jù)顏色和空間的相似性采用均值漂移聚類的方法對圖像內(nèi)容進行分類,然后將主成分分析算法應用到舌體檢測算法,利用投票策略實現(xiàn)分割.文獻[18] 針對舌體的特點設計了雙橢圓形變輪廓方法,該方法針對舌體形狀特意設計,通過在參數(shù)空間中的能量函數(shù)來捕獲粗體形狀特征,能夠適應局部細節(jié),提高了舌圖像分割的準確率.Shi 等[19]通過顯著性窗口來細化臨床舌象,將舌區(qū)域初始化為上部分二值化模板和下部分水平集矩陣.應用雙重矢量流的方法來檢測舌體邊緣并在圖像中分割舌體區(qū)域.

    圖1 幾種基于圖像特征的舌體分割方法分割效果Fig.1 The results of several traditional algorithms

    1.2 基于可變模型的分割方法

    20 世紀80 年代中期,Kass 等[20]提出了二維的可變模型的概念,又稱為Snakes 或動態(tài)輪廓模型.該方法通過對能量函數(shù)的動態(tài)優(yōu)化來逼近目標的真實輪廓,其特點是結(jié)合了圖像的高層和底層特征,在生物醫(yī)學圖像分割中得到廣泛使用[21-22].在用于圖像分割時,其穩(wěn)定性、精確度等方面均優(yōu)于圖像特征的分割方法[23].

    王愛民和沈蘭蓀[24-25]提出了Catmull-Rom樣條Snakes 模型,并將其應用于舌體自動分割.McInerney 等[26]提出了拓撲自適應的Snakes 模型,能夠得到具有分支或由若干閉合曲線構成的復雜輪廓,實現(xiàn)圖像分割.一種基于先驗知識的自動舌體分割算法[27]利用舌體的位置、顏色等先驗信息,通過Snakes 模型得到舌體區(qū)域.文獻[28] 提出了一種舌體邊緣檢測和梯度矢量流(Gradient vector flow Snakes,GVF-Snakes)動態(tài)輪廓線相結(jié)合的全自動舌體分割方法.文獻[29] 提出一種基于分水嶺變換和主動輪廓模型的舌體分割方法,該方法通過降采樣的方法來提高分割速度.Yu 等[11]根據(jù)舌圖像先驗知識檢測舌體的初始邊界,然后將彩色梯度信息引入GVF-Snakes 方法,將舌體區(qū)域分割出來,結(jié)果如圖1(c)所示.Zhai[30]采用中值濾波去除圖像中的噪聲,然后將圖像映射到HIS 色度空間,利用對偶Snakes 算法獲取舌體輪廓,實現(xiàn)舌圖像分割.一種基于初始化Snake 輪廓線的混合舌圖像分割算法[31]為采用雙層極坐標邊緣檢測算法獲取舌體的粗略邊緣,之后采用Snakes 模型修正得到準確的舌體邊緣,將舌體與背景信息分離.Pang 等[32]的分割方法中采用了一個雙橢圓變形模板,結(jié)合主動輪廓模型將舌體分割出來.Guo 等[33]提出了基于自適應Snakes 模型的舌圖像分割方法,但是該方法在舌體邊界初始化時容易受到唇部的干擾,需要進行人工干預.孫曉琳等[34]使用轉(zhuǎn)換顏色空間和優(yōu)化的Snakes 模型實現(xiàn)舌體分割,提高了算法穩(wěn)定性和準確性.王明英等[35]采用兩次Snakes 動態(tài)輪廓模型,提高了舌體分割方法的分割精度.Zhang 等[36]提出了一種結(jié)合極邊檢測器和主動輪廓模型技術的新型自動舌分割方法,使用一種極邊檢測器,以有效地提取舌體邊緣.然后,設計了一種邊緣濾波方案,并引入局部自適應邊緣雙閾值算法以執(zhí)行邊緣二值化.最后,使用啟發(fā)式初始化和主動輪廓模型來從圖像中分割舌體.

    基于可變模型的分割方法大多采用Snakes 算法,需要指定初始區(qū)域,然后使用Snakes 進行精細分割.但是初始區(qū)域的選取方法有時候會存在較大的誤差,或者較為復雜,使得算法的實用性大大降低.

    基于傳統(tǒng)技術的中醫(yī)舌象分割方法利用圖像像素值特性和一些特定的算法實現(xiàn)了舌圖像分割,但這些算法的穩(wěn)定性和性能多難以達到實際應用需求,這些算法需要人為輔助,自動化效果較差,算法運行速度較慢.絕大多數(shù)現(xiàn)有的舌圖像分割方法是針對封閉式采集環(huán)境提出的,當面對復雜的開放式環(huán)境時,算法的魯棒性較差.因此,利用新的圖像處理技術提升分割方法的魯棒性具有重要的理論研究意義和實際應用價值.

    2 基于深度學習的分割方法

    近年來,深度學習在語義分割等計算機視覺領域取得了顯著進步.其中,卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)[37]憑借其強大的特征學習與表達能力廣泛應用于圖像語義分割.這些方法大部分不是專門為中醫(yī)舌圖像分割問題而設計的,同時基于深度學習舌圖像分割方法非常少.

    舌象分割問題與圖像語義分割問題具有相似性.語義分割也稱為全像素語義分割,對圖像中的每個像素標注類別標簽,以此來識別圖像中存在的內(nèi)容以及位置.舌象分割與自然圖像語義分割相比具有以下特點:1)舌體表面反映很多病理細節(jié),對邊緣提取有較大的影響,如舌邊緣可能存在齒痕,舌體可能存在裂痕等.2)不同疾病、不同人采集到的舌體的形態(tài)差異大,難以采用預先定義的變形模板解決舌象魯棒分割問題;3)舌體顏色與唇色、膚色顏色相近,灰度值也相近,較難區(qū)分;4)舌體根部邊緣不清晰,單純依靠邊緣信息難以準確確定根部邊緣.因此,我們可以借鑒深度學習在語義分割中取得突破性進展的先進技術解決舌象分割問題,但又不能直接生搬硬套,需要采用舌象分割數(shù)據(jù)集對現(xiàn)有網(wǎng)絡進行訓練微調(diào),以適應舌象分割的具體應用.

    本節(jié)首先介紹典型的基于深度網(wǎng)絡的語義分割方法,然后闡述我們對其進行針對舌圖像分割問題的遷移學習訓練方法.

    2.1 基于編解碼網(wǎng)絡框架的分割方法

    編解碼網(wǎng)絡通常采用“沙漏型”網(wǎng)絡結(jié)構,網(wǎng)絡分為編碼部分和解碼部分.用于語義分割的網(wǎng)絡通常由這種典型的編解碼網(wǎng)絡結(jié)構演化而來,圖像輸入到傳統(tǒng)CNN 中,經(jīng)過卷積和池化后,特征圖的分辨率通常會不斷降低,同時其圖像的感受野會不斷增加,但是由于圖像分割預測是逐像素輸出的,所以將CNN 輸出的較小的特征圖進行上采樣到原始圖像尺寸進行預測.在編碼過程中,全卷積網(wǎng)絡通常會逐層降低圖像空間分辨率,產(chǎn)生較為粗糙的分割結(jié)果;在解碼過程中,將低分辨率的結(jié)果上采樣到原圖大小.現(xiàn)有大部分先進的分割網(wǎng)絡都有相同或相似的編碼結(jié)構,之所以會產(chǎn)生不同精度的分割結(jié)果,關鍵在于解碼網(wǎng)絡結(jié)構的不同.

    全卷積分割網(wǎng)絡(Fully convolutional networks for semantic segmentation,FCN)[38]將傳統(tǒng)CNN中的全連接層轉(zhuǎn)化為多個并行的卷積層.如圖2 CNN 卷積化所示,在傳統(tǒng)的CNN 結(jié)構中,前5 層為卷積層,第6 層和第7 層分別是一個長度為4 096的一維向量,第8 層是長度為C 的一維向量,C 為分類的類別數(shù)量,此處C 為2,對應2 個類別即舌體區(qū)域和背景區(qū)域的概率.FCN 將這3 層替換為卷積層,卷積核的大小(通道數(shù),寬,高)分別為(4 096,1,1)、(4 096,1,1)、(2,1,1).網(wǎng)絡中解碼部分所有的層都是卷積層,之后對特征圖進行上采樣,得到與輸入圖像大小相同的特征圖,因此稱其為全卷積網(wǎng)絡.同時,網(wǎng)絡結(jié)構中加入深層和淺層的跳層連接,用來促進梯度傳遞,提高訓練的有效性.如圖3所示,其中,不加跳層連接、并且輸出圖特征直接進行上采樣和預測的網(wǎng)絡結(jié)構稱為FCN32S;在第4層特征和網(wǎng)絡輸出結(jié)果加入跳層連接,進行特征融合,然后進行上采樣和分割預測的網(wǎng)絡結(jié)構稱為FCN16S;在第3 層特征和FCN16S 輸出結(jié)果之間加入跳層連接,特征融合后進行上采樣和分割預測的網(wǎng)絡結(jié)構為FCN8S.Mask R-CNN (Region CNN)[39]在Faster R-CNN[40]的基礎上使用FCN增加了分割的分支實現(xiàn)了目標檢測、目標分類識別和像素級目標分割.

    圖2 卷積神經(jīng)網(wǎng)絡卷積化Fig.2 Convolutionalization of CNN

    圖3 全卷積網(wǎng)絡結(jié)構圖Fig.3 The architecture of FCN

    SegNet 為用于圖像分割的深度卷積編碼器–解碼器結(jié)構[41],如圖4 所示,同樣采用編解碼的網(wǎng)絡結(jié)構,編碼網(wǎng)絡用于提取特征,解碼網(wǎng)絡采用上采樣的方法豐富輸出的圖像信息.Qu[42]等將SegNet 成功應用到了舌圖像分割當中,并利用小樣本實現(xiàn)網(wǎng)絡的訓練.類似的分割網(wǎng)絡U-net[43],其編碼網(wǎng)絡結(jié)構采用卷積和最大池化來實現(xiàn)的特征提取,并且在下采樣過程中逐次增加特征通道;解碼網(wǎng)絡部分對編碼網(wǎng)絡的輸出特征圖進行拷貝和剪裁,并通過反卷積獲得豐富的分割細節(jié),這樣的結(jié)構使得在上采樣過程中網(wǎng)絡可以傳播到更高分辨率的層.同樣采用編解碼網(wǎng)結(jié)構的還有2018 年初Google 公司提出的DeepLab V3+[44],該網(wǎng)絡為了融合多尺度信息引入語義分割常用的編解碼網(wǎng)絡,引入可任意控制編碼器提取特征的分辨率,通過Atrous 卷積平衡精度和耗時.

    圖4 SegNet 網(wǎng)絡結(jié)構圖Fig.4 The architechture of SegNet

    編解碼網(wǎng)絡框架結(jié)構中,通過上采樣到原始的圖像尺寸進行預測.編碼–解碼網(wǎng)絡框架結(jié)構網(wǎng)絡框架通過對圖像的下采樣獲得高層語義特征,將獲得圖像特征上采樣到原始圖像大小特征進行圖像預測.

    2.2 基于Atrous 卷積的圖像分割方法

    像素級別的圖像分割問題是Low-level 的問題,從直覺上講可能不需要深度網(wǎng)絡提取抽象的高層語義信息.但是,需要考慮不同大小目標的多尺度分割問題.為了避免卷積網(wǎng)絡特征提取獲得高層語義信息,同時兼顧不同的尺度分割問題,Chen 等[45]在Deeplab 中引入了孔洞濾波的概念.他們在卷積核里增加孔洞,也就是Atrous 卷積.其基本思想通過在卷積濾波器中插入零值來調(diào)整單層卷積層濾波器感受野的大小,在不增加權值參數(shù)數(shù)量的情況下適應不同尺度目標的分割問題.多分辨率的感受野可以更為有效地學習不同尺度目標的有效信息,從而進一步提高目標的分割精度.由于Atrous 卷積良好特性,PSPNet[46]網(wǎng)絡同樣在卷積網(wǎng)絡中使用了Atrous 卷積,提高網(wǎng)絡性能.

    Deeplab V2[45]將Atrous 卷積應用到空間金字塔中,增加更多的多視野區(qū)域,如圖5 所示,該方法分別使用Atrous 卷積的孔徑系數(shù)參數(shù)Rate 為6、12、18和24 的4 個3×3 卷積,構成基于Atrous卷積的空間金字塔池化(Atrous spatial pyramid pooling,ASPP).同樣Deeplab V3[47]將Atrous 卷積應用到基礎網(wǎng)絡和空間金字塔中,其中基礎網(wǎng)絡中,取ResNet[48]最后一個Block,將其復制多個,級聯(lián)起來,并將Atrous 卷積應用到級聯(lián)模塊中.這一結(jié)構在DeeplabV3+中同樣被采用.

    圖5 基于Atrous 卷積的空間金字塔池化結(jié)構圖Fig.5 The architechture of ASPP

    圖像分割網(wǎng)絡的基礎網(wǎng)絡通過連續(xù)的下采樣整合多尺度的內(nèi)容信息,降低圖像分辨率.卷積能夠整合多尺度內(nèi)容信息,且不損失分辨率.在Deeplab 引入Atrous 卷積后,Deeplab V2、V3、V3+網(wǎng)絡均采用了Atrous 卷積,在不增加參數(shù)量的前提下保護了感受野及特征分辨率.引入Atrous 卷積,圖像語義分割效果有很大的提高,具體實驗結(jié)果在本文后續(xù)部分進行詳細討論.

    2.3 空間金字塔池化的網(wǎng)絡框架

    深度神經(jīng)網(wǎng)絡一般都需要固定的輸入圖像尺寸,潛在性的弊端會降低識別精度.在該過程中,為了使圖像尺寸相同,一定會涉及到圖像的比例、非比例縮放,這就引入了尺度誤差和形變誤差.在解決分割物體多尺度的問題中,空間金字塔池化[49](Spatial pyramid pooling,SPP)是一種非常有效的多分辨策略,對目標形變等問題具有很好的魯棒性.PSPNet[46]使用金字塔池化模塊能夠聚合不同區(qū)域特征的上下文信息,從而提高獲取全局信息的能力,有效提高了分割的精度.

    Chen 等[45]提出的基于孔洞的空間金字塔模塊,能夠獲得多尺度的特征信息,使得分割結(jié)果更具魯棒性.基于孔洞的空間金字塔并行的采用多個采樣率的Atrous 卷積層獲得不同特征,以多個比例獲取對象以及圖像上下文信息.但是隨著采樣率的增加,濾波器的有效權重逐漸變小.為了克服這個問題,并將全局上下文信息納入模型,Deeplab V3 在模型的最后一個特征圖采用全局平均池化,將重新生成的圖像級別的特征提供給帶256 個濾波器和批歸一化(Batch normalization)[50]的1×1 卷積,然后通過雙線性插值將特征提升到所需的空間維度.改進的結(jié)構如圖6 所示.

    圖6 改進的基于Atrous 卷積的空間金字塔池化結(jié)構圖Fig.6 The architechture of the improved ASPP

    空間金字塔池化的網(wǎng)絡框架,使得任意大小的特征圖像能夠轉(zhuǎn)換成固定大小的特征向量,之后送入后面的分割預測.同時,該結(jié)構能夠有效解決輸入圖像大小不一的情況,提高了分割網(wǎng)絡的精度和速度.針對不同問題,優(yōu)化的ASPP和改進的ASPP使得圖像分割的精度不斷提高.

    2.4 面向舌象分割的遷移學習

    經(jīng)典的基于深度學習的語義分割網(wǎng)絡沒有針對特定種類的分割任務設計,算法訓練和測試均是在公開數(shù)據(jù)集上進行.中醫(yī)舌象分割有自身特點和要求.將經(jīng)典算法應用到舌圖像分割當中應充分考慮舌圖分割的任務特點,其對精度和邊緣信息要求更加嚴格.

    2.4.1 訓練樣本的數(shù)據(jù)擴充

    在深度學習的模型訓練中,訓練樣本數(shù)據(jù)量大小對深度模型的性能有著直接的影響,如果樣本數(shù)少,會造成模型的過擬合.由于本文構建的舌圖像樣本數(shù)據(jù)集(Tongue dataset)的樣本數(shù)據(jù)有限,為了防止深度模型過擬合,本文采用了常用的方法來擴充樣本數(shù)據(jù)量,即旋轉(zhuǎn)、平移和水平鏡像.其中,旋轉(zhuǎn)采用在-70°~+70°范圍內(nèi)隨機產(chǎn)生不同角度的變化,平移采用了上、下、左、右四個方向的移動.采用該方式我們得到擴充后的舌圖像和標簽圖像,兩者作為圖像對被送入深度網(wǎng)絡中進行微調(diào)訓練.

    2.4.2 基于遷移學習的網(wǎng)絡訓練

    深度學習需要大量的數(shù)據(jù),經(jīng)過上述的數(shù)據(jù)擴充在一定程度上改善了數(shù)據(jù)庫數(shù)據(jù)量較少的問題,為了進一步提高訓練網(wǎng)絡的精度,遷移學習的策略可以讓網(wǎng)絡從ImageNet 的訓練模型中,簡單地提取網(wǎng)絡權重的初級特征,應用在中醫(yī)舌圖像分割任務中.同時,經(jīng)過遷移學習可以避免網(wǎng)絡過擬合,加快網(wǎng)絡訓練.遷移學習有兩種策略:微調(diào)(Fine tuning)和凍結(jié)與訓練(Freeze and train).微調(diào)包括使用基礎數(shù)據(jù)集上的預訓練網(wǎng)絡以及在目標數(shù)據(jù)集中訓練所有層;凍結(jié)與訓練包括凍結(jié)除用于分類的全連層的所有層(權重不更新)并訓練最后一層.也可以凍結(jié)前面幾層,然后微調(diào)其余層.我們使用微調(diào)的訓練策略,使用ImageNet 數(shù)據(jù)集的預訓練模型對網(wǎng)絡初權值進行初始化,在舌圖像分割數(shù)據(jù)集中訓練所有層,從而使各個網(wǎng)絡更好地應用到中醫(yī)舌圖象語義分割任務中來.同時,我們將網(wǎng)絡最后一層的輸出類別的改為2,即舌體區(qū)域和背景區(qū)域.使用舌象數(shù)據(jù)對各個分割網(wǎng)絡進行訓練,當網(wǎng)絡損失曲線和分割精度曲線趨于平穩(wěn)后停止訓練.

    3 分割性能評估與分析

    經(jīng)歷了近20 年的舌象分析研究,對傳統(tǒng)的舌象分割方法,文獻[1] 的結(jié)論為“鑒于舌體分割問題的復雜性,至今尚無哪種自動分割算法能對各類舌圖像都取得理想的分割結(jié)果,在有些場合還必須為用戶提供人機交互的方法來提取舌體,以保證系統(tǒng)的可靠運行”.文獻[51] 集中闡述了香港理工大學張大鵬(David Zhang)教授課題組的舌象分割成果,從文獻中可得出結(jié)論:通常,除了主要的舌體,捕獲的舌頭圖像包含很多其他無關的信息.因此,為了提高舌象分析的準確性,研究人員針對不同的任務對現(xiàn)有分割算法進行改進,使其適合中醫(yī)舌圖像分割任務.經(jīng)過改進算法可以達到可接受的性能.

    雖然個別的傳統(tǒng)舌象分割方法取得了不錯的結(jié)果,但基本上都是在特定封閉光學環(huán)境和規(guī)定舌象姿態(tài)下完成的,對開放環(huán)境下任意舌體的分割極少涉及.因此,本節(jié)將重點介紹基于深度語義分割網(wǎng)絡遷移學習的舌象分割技術的結(jié)果測評與分析.采用深度學習方法的舌圖像語義分割算法,無需人為選取舌圖像特征,通過網(wǎng)絡訓練獲得分割模型,測試階段采用模型進行預測,實現(xiàn)圖像的精確分割.為了更好地了解各個模型的分割特點,我們對其中幾種經(jīng)典算法進行遷移學習,測試評估,分析各自分割性能.

    3.1 數(shù)據(jù)集

    目前,國內(nèi)外沒有標準的用于中醫(yī)舌圖像自動分割的數(shù)據(jù)庫.我們根據(jù)不同環(huán)境下中醫(yī)舌象儀研究的實際需求,在開放式采集環(huán)境下構建了舌圖像數(shù)據(jù)集Tongue dataset1自建舌象數(shù)據(jù)庫經(jīng)過整理后將適時對外公開,具體詳情可郵件聯(lián)系通信作者..該數(shù)據(jù)集由3 000 幅舌圖像構成,由互聯(lián)網(wǎng)圖像和利用手機、相機等不同圖像采集設備在不同的環(huán)境和時間段拍攝得到照片組成.因此,Tongue dataset 中的舌圖像具有尺寸大小不一,光照環(huán)境復雜多變,舌體的大小、形狀各異和位置不固定等特點.舌圖像數(shù)據(jù)集Tongue dataset 部分圖像樣例如圖7 所示.

    圖7 Tongue dataset 中的部分舌圖像Fig.7 Some pictures of the tongue dataset

    我們采用這些數(shù)據(jù)訓練模型,以便提高模型對光照條件、圖像大小、背景信息等各種因素變化的泛化能力.同時,我們對數(shù)據(jù)集中的舌圖像進行像素級的標注,分為背景區(qū)域和舌體區(qū)域.標注后得到與原圖大小相同的標簽,得到用于深度學習微調(diào)訓練的數(shù)據(jù).

    3.2 評價指標

    對于分割質(zhì)量評價研究,大多偏重于客觀的評價,借助于求分割后的圖像與參考圖像之間的差別來評判分割算法的優(yōu)劣,文獻[52] 提出了3 種經(jīng)典的評價方法:基于輪廓的評價、基于區(qū)域的評價和基于參數(shù)的評價.基于輪廓的評價方法使用距離分布函數(shù)和輪廓加權誤分率測量精度;基于區(qū)域的評價方法通過區(qū)域數(shù)量、位置和大小來評價分割的準確性;基于參數(shù)的評價方法通過理想分割結(jié)果的連通域參數(shù)和分割結(jié)果的參數(shù)之間的差值來表示分割的質(zhì)量.文獻[24] 將分割質(zhì)量評定為3 個級別:分割結(jié)果非常準確、比較準確和偏差較大,通過各級圖像所占的百分比來衡量分割算法的優(yōu)劣.該方法主觀性較強,誤差較大.

    對舌體分割正確率客觀評價,本文采用語義分割任務中常用的指標平均交疊率(Mean intersection over Union,mIoU).該方法相對文獻[52] 計算量較小,測量精度相對文獻[24] 更加客觀,同時也符合主客觀評價的一致性.該指標的計算分別如式(1)和式(2)所示.

    其中,nji表示被分為j 類的第i 類像素的個數(shù),ncl表示總的像素類別個數(shù),本文的像素類別個數(shù)為2,ti 表示第i 類的像素總數(shù).

    在研究中,有時候增加網(wǎng)絡的復雜度會提高模型的精度,但是在算法落地過程中,模型預測速度同樣十分重要.因此,我們除了計算各個模型的精度指標mIoU 之外,還對模型預測速度進行測量,從模型的效率方面對方法進行性能評測.

    實驗中,我們使用搭載有TITAN X Pascal 顯卡,內(nèi)存為16 GB,處理器為Intel i7 處理器,64 位Linux 系統(tǒng)操作平臺進行分割網(wǎng)絡訓練和性能測試.

    3.3 實驗結(jié)果與分析

    在中醫(yī)自動化分析中,由于舌圖像顏色呈現(xiàn)與光照關系很大,對中醫(yī)舌圖像分析的算法基本上是用于封閉環(huán)境下的中醫(yī)舌圖像.在測試過程中,為了測試網(wǎng)絡的在實際的應用的效果,選取了封閉環(huán)境下采集到的舌圖像圖進行測試.我們選取了4 幅典型的舌圖像進行展示.圖8 中所示的舌圖像為未分割的舌圖像,第1 幅圖為較正常的舌圖像,其他的舌圖像存在常見的齒痕、裂紋、紅點舌等問題.本文主要對比了FCN8S,FCN16S,FCN32S,SegNet,Mask R-CNN,Deeplab V2,Deeplab V3和Deeplab V3+等方法,接下來將從方法的主觀和客觀兩方面進行分析.

    圖8 測試舌圖像(彩色圖像見網(wǎng)絡版)Fig.8 Pictures of test dataset (Refer to the internet version for color images)

    3.3.1 客觀分割結(jié)果分析

    本文對FCN8S,FCN16S,FCN32S,SegNet,Mask R-CNN,Deeplab V2,Deeplab V3和Deeplab V3+分割結(jié)果進行可視化.為了更好地展示分割的效果,本文采用分割結(jié)果圖和原圖進行疊加的方式對分割效果進行可視化,結(jié)果圖9 所示(彩色圖參見本文網(wǎng)絡版).

    圖9 不同分割算法的分割效果(彩色圖像見網(wǎng)絡版)Fig.9 The results of different segmentation algorithms(Refer to the internet version for color images)

    在FCN 系列中,如圖9(a)~(c)中所示,從可視化結(jié)果圖可以看出,FCN32 效果最好,FCN16S次之,FCN8S 效果最差.在3 種方法分割結(jié)果中,FCN32S 分割結(jié)果中含有最少的分割噪聲,FCN8S的噪聲最多.網(wǎng)絡結(jié)構上,FCN32S 加入跳層連接,得到FCN16S和FCN8S.在文獻[38] 中,FCN16S和FCN8S 在PASCAL VOC 等數(shù)據(jù)集上的分割效果要好于FCN32S,但是在舌圖像語義分割任務中,卻未能提升舌體分割的精度.隨著網(wǎng)絡結(jié)構中的跳層連接增加,分割結(jié)果圖中的噪聲不斷增加,跳層連接最多的FCN8S 分割噪聲最多.這可能與圖像語義分割類別數(shù)量有關,中醫(yī)舌圖像語義分割只有兩類,即背景和舌體區(qū)域,相對PASCAL VOC 目標類別較少,而且舌體在圖像中占有的比例較大,不需要更多的底層信息來豐富特征信息.除此之外,也可以觀察到隨著跳層連接的加入,除去噪聲的Mask部分舌體的預測確實在提升,FCN32S 預測結(jié)果中,一些舌體區(qū)域沒有被預測為舌體,FCN16S和FCN32S 的結(jié)果不斷提升.從另一個角度來說,跳層連接使得預測結(jié)果融合淺層網(wǎng)絡的信息能夠提升模型預測性能.

    SegNet 網(wǎng)絡與FCN 系列網(wǎng)絡相比,預測結(jié)果的噪聲大幅度減少,但是舌體邊緣部分會存在一些粘連的噪聲,同時出呈現(xiàn)毛糙的邊緣部分.這對舌體分割來說影響較大,因為毛糙的邊緣會造成舌體存在齒痕的假象,這對舌體分析造成較大的負面影響.

    觀察圖9 可以看出,Mask R-CNN 分割結(jié)果沒有分割噪聲和粗糙的分割邊緣,客觀分割效果相對FCN和SegNet 有提升.仔細觀察,會發(fā)現(xiàn)分割結(jié)果多會存在預測舌體區(qū)域小于實際舌體區(qū)域的欠分割效果.因此,該方法丟失了舌體的邊緣信息,與實際存在一定的偏差.

    最后,在Deeplab 系列網(wǎng)絡的分割結(jié)果中,Deeplab V2 分割效果能夠減少Mask R-CNN 分割算法中出現(xiàn)的欠分割問題,Deelab V3 的分割結(jié)果如圖9 所示,Deeplab V3 的主觀結(jié)果將Deeplab V2 中的欠分割的問題大大改善.Deeplab V3+在此基礎上進一步優(yōu)化,在Deeplab V3 的分割結(jié)果圖中會有微小的欠分割的情況,Deeplab V3+則將該問題幾乎完全解決,而且單幅圖像的預測時間減少了近一半.

    8 種主要的深度學習方法在中醫(yī)舌圖像分割主觀效果中,FCN 系列的跳層連接方法未能更好地提高分割性能.SegNet 編碼解碼網(wǎng)絡結(jié)構分割處理分割邊緣的性能有待提升.不同于其他的深度學習方法,Deeplab 系列網(wǎng)絡采用Atrous 卷積和基于空間金字塔網(wǎng)絡結(jié)構,舌體分割結(jié)果沒有出現(xiàn)噪聲問題.Deeplab V3 對基于空間金字塔模塊的改進,Deeplab V3+引入編解碼的網(wǎng)絡結(jié)構等方法,該系列方法不斷對網(wǎng)絡結(jié)構進行調(diào)整,使得分割效果不斷提升.

    3.3.2 客觀分割結(jié)果分析

    為了從客觀上對上述方法進行比較,我們對各個方法的客觀分割精度進行測量.同時,對各個方法的模型測試時間進行統(tǒng)計.表1 給出了8 種比較方法的客觀分割精度和單幅圖像預測時間.

    表1 不同舌象分割方法性能比較Table 1 Comparison on performances of different algorithms

    FCN 系列在加入了跳層連接后,單幅圖像的預測時間變化不大,但是客觀分割精度mIoU和主觀效果圖一致,FCN32S 的mIoU 值最高.SegNet與FCN 系列不同,在解碼模塊進行改進,精度和FCN32S 相當,但預測時間有明顯的降低.Mask RCNN 分割精度相對FCN 系列和SegNet 有所提高,但預測時間相對SegNet 有所增加.可看到Deeplab系列的分割方法在分割精度和預測時間上都取得了不錯的結(jié)果.Deeplab 系列分割精度較前幾種方法來說有大幅度提高,并且單幅圖像的預測時間有大幅度減少.

    在中醫(yī)舌圖像分割的客觀評價中,主觀評價分割效果的結(jié)論在mIoU 指標上進一步得到驗證.網(wǎng)絡單幅圖像測試速度方面可以發(fā)現(xiàn),FCN 系列網(wǎng)絡的跳層連接對網(wǎng)絡速度影響不大,與其他算法相比運行時間較長.同樣采用FCN 結(jié)構的Mask RCNN 的單幅圖像測試速度也比較長.主觀分割效果較好的Deeplab 系列網(wǎng)絡,每一代的改進在提升分割效果的同時,提高了網(wǎng)絡的運行速度,這與網(wǎng)絡使用新的網(wǎng)絡結(jié)構和訓練策略有關.

    4 總結(jié)與展望

    通過本文綜述,我們梳理了中醫(yī)舌象分割問題的研究最新進展.我們得出的結(jié)論是:目前基于深度學習的舌象分割方法克服了舌形態(tài)、光照、顏色多種因素的舌象分割挑戰(zhàn),能夠?qū)崿F(xiàn)開放環(huán)境靜態(tài)舌象的精準快速分割,基本解決了困擾舌象分割多年的全自動魯棒舌象分割的瓶頸問題.這對中醫(yī)舌象儀的自動化分析提供了傳統(tǒng)方法難以達到的進展.本論文以綜述的形式匯報該領域的最新進展,為相關研究人員提供參考.在此基礎上,我們對中醫(yī)舌象分割技術的發(fā)展提出了新的展望.

    1)舌象動態(tài)分割.舌象的動態(tài)特征,如患者伸舌過程中呈現(xiàn)的顫抖、舌體伸出的幅度等特征也為舌診提供了重要的信息.目前的中醫(yī)舌象分析系統(tǒng)很少對動態(tài)特征的采集和分析開展研究.精準魯棒的深度網(wǎng)絡靜態(tài)舌象分割方法,為舌體動態(tài)視頻的分割提供了基礎.其中關鍵問題是如何在舌象視頻分割中如何準確捕獲舌體顫抖等動態(tài)信息.

    2)開放環(huán)境下的舌象分析研究.基于深度網(wǎng)絡的舌象分割方法不僅實現(xiàn)了封閉環(huán)境下的舌象精準魯棒分割,在開放環(huán)境下的舌象分割任務中,也取得了令人滿意的結(jié)果.這為進一步開展開放環(huán)境下的舌象分析研究提供了基礎.

    3)針對舌象分割任務,設計并優(yōu)化專門的深度網(wǎng)絡結(jié)構.本文所涉及的語義分割網(wǎng)絡并非專門為舌象分割任務設計,因此可能存在網(wǎng)絡參數(shù)冗余等問題;另外,網(wǎng)絡的訓練和測試過程都需要借助圖形計算卡等計算資源.這在一定程度上限制了舌象分析儀的靈活性.因此,針對舌象分割任務,設計專門的網(wǎng)絡結(jié)構,并進行面向普通計算機或嵌入式系統(tǒng)的算法優(yōu)化,也是中醫(yī)舌象儀發(fā)展需要開展的重要工作.

    總之,深度神經(jīng)網(wǎng)絡在中醫(yī)舌圖像分割中已初步展現(xiàn)了巨大的潛力和很好的效果.但是,仍有很多尚未完善的工作,需要更多的研究者開展富有創(chuàng)新性的工作.

    猜你喜歡
    舌體舌象卷積
    574例新型冠狀病毒肺炎康復者舌象特征分析
    基于Citespace的國內(nèi)腫瘤舌象研究可視化分析(2001-2020年)
    基于Citespace糖尿病舌象研究的文獻計量與可視化分析
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    舌象儀臨床應用研究的方法學及報告質(zhì)量評價
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    望舌可預測中風
    長壽(2018年6期)2018-07-12 07:54:12
    基于傅里葉域卷積表示的目標跟蹤算法
    新疆地區(qū)不同民族老年舌體鱗狀細胞癌患者臨床特征及生存分析
    一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
    電視技術(2014年19期)2014-03-11 15:38:20
    五台县| 沧州市| 洛阳市| 隆德县| 绥棱县| 成安县| 贺州市| 五常市| 巴马| 长武县| 罗源县| 合江县| 德惠市| 南投市| 双桥区| 孟连| 通河县| 新兴县| 清水河县| 汝州市| 本溪| 容城县| 镇康县| 洛隆县| 唐海县| 江都市| 尖扎县| 招远市| 东乌珠穆沁旗| 青铜峡市| 卢湾区| 大方县| 琼中| 金塔县| 阳曲县| 奎屯市| 丰原市| 盱眙县| 门头沟区| 嘉荫县| 大名县|