趙庶旭,羅慶,王小龍
蘭州交通大學(xué)電子與信息工程學(xué)院,甘肅蘭州730070
牙病一直是困擾我國(guó)居民的一大問(wèn)題。截止到2018年,我國(guó)僅有16.73 萬(wàn)個(gè)口腔醫(yī)生,每百萬(wàn)人牙醫(yī)數(shù)量只有100多位,相比于發(fā)達(dá)國(guó)家的每百萬(wàn)人牙醫(yī)數(shù)量高達(dá)500~1 000 位,中國(guó)牙科醫(yī)生十分緊缺[1-2]。而在歐美等發(fā)達(dá)國(guó)家,盡管其牙科醫(yī)生數(shù)量多于中國(guó)且私人牙科診所普遍,但是其治療成本過(guò)高。面對(duì)全球醫(yī)療資源短缺的現(xiàn)狀以及實(shí)際診療的需要,利用計(jì)算機(jī)圖形圖像處理技術(shù)構(gòu)建智能診斷系統(tǒng)逐漸成為研究熱點(diǎn)[3]。
牙齒全景X光片是診斷牙病的常用輔助工具,使用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)牙齒全景X光片中牙齒形狀、位置、類別等基礎(chǔ)信息的提取能夠大量減少醫(yī)生的工作量。在目前的牙科X 線圖像自動(dòng)化分析研究中[4],主要是針對(duì)牙齒、病灶等目標(biāo)的分割與識(shí)別[5-8]。如Hasan 等[9]利用梯度矢量流(Gradient Vector Flow,GVF)Snake 從全景牙科X 線圖像中自動(dòng)分割頜骨。Choi 等[10]采用變分法和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的方法,檢測(cè)牙周受損牙。Patil 等[11]提出利用主成分分析(Principal Component Analysis, PCA)降維和神經(jīng)網(wǎng)絡(luò)的齲齒檢測(cè)方法,用于牙科X射線圖像的分析。其中Jader 等[6]提出使用Mask R-CNN 用于分割牙齒,詳細(xì)討論了牙齒X 光片中完整與缺牙情況的檢測(cè)分割效果,但是其分割精度不高且將所有的牙齒都?xì)w為一類,忽略了不同牙齒(如門牙與后槽牙)之間的語(yǔ)義差別,無(wú)法做到各個(gè)牙位牙齒之間的區(qū)分。但在實(shí)際診斷過(guò)程中,對(duì)牙齒進(jìn)行編號(hào)是牙病診斷過(guò)程中的必要步驟,口腔醫(yī)生往往會(huì)根據(jù)病歷上牙齒部位的記錄來(lái)快速了解牙齒情況,同時(shí)也方便醫(yī)生為之后的診療工作做病歷記錄。Chen等[12]首次提出使用Faster R-CNN 來(lái)檢測(cè)和編號(hào)牙科圖像中的牙齒,為牙齒全景X 光片的分析提供了新的方向,但是其只提取了牙齒的位置與類別信息,忽略了牙齒形狀及語(yǔ)義信息的重要性。
考慮到這些牙齒分割和牙齒識(shí)別分類的深度學(xué)習(xí)方法只能單一的提取牙齒的語(yǔ)義信息或者類別信息,當(dāng)需要更全面的牙齒信息時(shí),只能通過(guò)多次提取,這在實(shí)際應(yīng)用過(guò)程中需要耗費(fèi)大量的時(shí)間與精力,缺乏高效性。而在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中對(duì)于牙齒的分割和識(shí)別有大量的特征參數(shù)可以共享,將這兩個(gè)任務(wù)融合,可以實(shí)現(xiàn)對(duì)牙齒信息的融合提取。因此本文利用改進(jìn)的Mask R-CNN 同時(shí)完成對(duì)牙齒全景X光片的牙齒分割與牙齒分類,并通過(guò)實(shí)驗(yàn)進(jìn)行驗(yàn)證,充分證明Mask R-CNN 應(yīng)用于牙齒分割和牙齒檢測(cè)的有效性。
Mask R-CNN 是由He等[13]提出的一種實(shí)例分割架構(gòu)。實(shí)例分割是指從圖像中用目標(biāo)檢測(cè)方法框出不同實(shí)例,再用語(yǔ)義分割方法在不同實(shí)例區(qū)域內(nèi)進(jìn)行逐像素標(biāo)記。Mask R-CNN 在目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN[14]基礎(chǔ)上增加了一條分割分支使其能對(duì)每個(gè)檢測(cè)出的目標(biāo)進(jìn)行語(yǔ)義分割,即實(shí)現(xiàn)所謂的實(shí)例分割。其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。
圖1 Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Mask R-CNN network architecture
Mask R-CNN 的網(wǎng)絡(luò)結(jié)構(gòu)主要分為以下4 個(gè)階段。階段1:殘差網(wǎng)絡(luò)(ResNet)和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks, FPN)作為特征提取器,對(duì)輸入的圖像進(jìn)行特征提取。階段2:得到的特征圖通過(guò)區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN)提取可能存在的目標(biāo)區(qū)域(Region of Interest, ROI)。階段3:這些ROI 輸入到ROI Align,并通過(guò)雙線性插值的方式被映射成固定維數(shù)的特征向量。階段4:映射后的特征分別輸入3條分支,通過(guò)全連接層進(jìn)行分類和包圍框回歸,通過(guò)全卷積層進(jìn)行語(yǔ)義分割。
RPN[14]輸入特征提取網(wǎng)絡(luò)的特征圖,輸出目標(biāo)候選區(qū)域矩形框集合。RPN 預(yù)先在原圖上生成若干個(gè)邊界框,并判斷其中最有可能包含目標(biāo)的邊界框作為候選區(qū)域輸出。其原理如圖2所示,核心為錨點(diǎn)(anchor)機(jī)制。首先用3×3 的滑窗在FPN 輸出的特征圖上進(jìn)行遍歷,當(dāng)前位置的滑窗中心在原始圖像像素空間的映射點(diǎn)即為錨點(diǎn),以此錨點(diǎn)為中心,設(shè)定不同尺寸(128×128、256×256、512×512)和長(zhǎng)寬比例(1:1、1:2、2:1)的錨點(diǎn)框共9 種,根據(jù)已知的錨點(diǎn)位置和錨點(diǎn)框的尺寸,便可以得到原始圖像中對(duì)應(yīng)區(qū)域的尺寸及坐標(biāo),這個(gè)區(qū)域就是預(yù)設(shè)的候選框。將卷積得到的256 維特征向量經(jīng)過(guò)兩個(gè)全連接層(cls layer、reg layer)分支進(jìn)行分類和邊框回歸,再利用非極大值抑制得到最有可能包含目標(biāo)的區(qū)域。
圖2 RPN原理圖Fig.2 Schematic diagram of region proposal network
在Faster R-CNN 中ROI Pooling兩次量化會(huì)造成區(qū)域不匹配問(wèn)題,為此Mask R-CNN提出了RoI Align的方法來(lái)取代ROI Pooling[13]。ROI Align 取消了量化操作,使用雙線性內(nèi)插的方法獲得坐標(biāo)為浮點(diǎn)數(shù)的像素點(diǎn)上的圖像數(shù)值,從而將整個(gè)特征聚集過(guò)程轉(zhuǎn)化為一個(gè)連續(xù)的操作。其原理如圖3所示,圖中虛線框?yàn)?×5 的特征圖,實(shí)線框?yàn)橛成涞教卣鲌D上的ROI 區(qū)域。要對(duì)該ROI 區(qū)域做2×2 的池化操作,首先把該ROI 區(qū)域劃分4 個(gè)2×2 的區(qū)域,然后在每個(gè)小區(qū)域中選擇4 個(gè)采樣點(diǎn)和距離該采樣點(diǎn)最近的4 個(gè)特征點(diǎn)的像素值(圖中黑色小方格的4 個(gè)角點(diǎn)1、2、3、4);通過(guò)雙線性插值的方法得到每個(gè)采樣點(diǎn)的像素值;最后計(jì)算每個(gè)小區(qū)的池化值,生成ROI區(qū)域的2×2大小的特征圖。
圖3 ROI Align原理圖Fig.3 Schematic diagram of ROI Align
對(duì)于Mask分支,是Mask R-CNN在Faster R-CNN基礎(chǔ)上增加的分支用于生成檢測(cè)目標(biāo)的掩碼[13]。Mask分支的輸入來(lái)自于經(jīng)過(guò)ROI Align處理后的ROI。對(duì)于每一個(gè)ROI,Mask分支有K個(gè)m×m維度的輸出,對(duì)這些大小為m×m的Mask進(jìn)行編碼,得到該ROIK個(gè)類別的概率值,由此實(shí)現(xiàn)實(shí)例分割的目的。如圖4所示,Mask分支對(duì)其進(jìn)行4次卷積和1次反卷積操作,并使用了像素級(jí)sigmoid激活函數(shù),最后得到K×m×m維度的輸出,其中K為檢測(cè)目標(biāo)的類別數(shù)目,m為特征圖的尺寸。由于Mask分支根據(jù)分類分支所預(yù)測(cè)的類別標(biāo)簽來(lái)選擇輸出的掩碼,其允許網(wǎng)絡(luò)為每一類生成一個(gè)掩碼,不同類之間不存在競(jìng)爭(zhēng),這使得分類和掩碼生成分解開來(lái),可以提高實(shí)例分割的效果。
圖4 Mask分支Fig.4 Mask branch
然而Mask R-CNN 作為兩階段檢測(cè)模型,實(shí)行先檢測(cè)后分割策略,其分割效果受檢測(cè)結(jié)果的制約。對(duì)于RPN 提取出的ROI 特征圖,Mask 分支采用全卷積操作提取語(yǔ)義信息,這對(duì)于局部語(yǔ)義信息有較好的敏感度,但是忽略了上下文信息。
在醫(yī)療圖像的臨床使用中,既需要整副圖的全局信息也需要某些特點(diǎn)區(qū)域的局部信息,對(duì)醫(yī)學(xué)圖像各個(gè)尺度特征信息的融合,可以一定程度上增大信息量。U-net模型在醫(yī)學(xué)圖像分割上取得了優(yōu)越的效果[15],其通過(guò)跳躍連接更好的融合了上下文語(yǔ)義信息。由此提出利用跳躍連接結(jié)構(gòu)融入多尺度注意力信息對(duì)Mask R-CNN 分割分支進(jìn)行改進(jìn),彌補(bǔ)Mask R-CNN在掩碼分支上所缺乏的深層特征。
跳躍連接(Skip-connection)最早由Ronneberger等[16]提出,用于語(yǔ)義分割的全卷積網(wǎng)絡(luò)(Fully Convolution Network,FCN)中。之后Shelhamer 等[15]在跳躍連接基礎(chǔ)上,提出了用于醫(yī)學(xué)圖像語(yǔ)義分割的U-net 架構(gòu)。FCN 和U-net 架構(gòu)的 不同是,F(xiàn)CN 使用求和運(yùn)算進(jìn)行特征融合,而U-net 將特征進(jìn)行拼接。圖5為密集跳躍連接結(jié)構(gòu)圖。
圖5 跳躍連接結(jié)構(gòu)Fig.5 Skip-connection structure
文中跳躍連接的特征融合方式是特征圖在通道維度上的拼接,計(jì)算公式如式(1)所示:
其中,W(h,w,a)和V(h,w,b)分別來(lái)自不同層的特征圖,F(xiàn)(h,w,c)為拼接之后的特征圖,h和w為特征圖的長(zhǎng)寬,a、b及c均為特征圖的通道數(shù)。這種跳躍連接結(jié)構(gòu)結(jié)合了低級(jí)特征圖中的特征,避免了直接在高級(jí)特征圖上進(jìn)行學(xué)習(xí),使得最終得到的特征圖既包含了高層特征,又包含了很多低層特征,實(shí)現(xiàn)了多尺度下特征的融合。
雖然跳躍連接更好的融合了上下文語(yǔ)義信息,有效地提取出更多牙齒細(xì)節(jié)信息,但低層特征中亮度不均衡、對(duì)比度較低仍會(huì)對(duì)牙齒的細(xì)粒度分割造成干擾。通過(guò)引入注意力機(jī)制SE(Squeeze and Excitation)模塊[17]來(lái)捕獲高級(jí)語(yǔ)義信息,根據(jù)特征圖像的值對(duì)各特征通道進(jìn)行加權(quán),提升重要特征的權(quán)重,降低不重要特征的權(quán)重,從而提升特征提取的效果,提高模型的分割精度。SE 模塊的核心是壓縮(Squeeze)和激勵(lì)(Excitation),結(jié)構(gòu)示意圖如圖6所示。
圖6 SE模塊Fig.6 Squeeze and excitation module
在圖6中,首先特征X經(jīng)過(guò)卷積將其通道數(shù)由C'變?yōu)镃,將特征圖U傳遞給壓縮操作。壓縮操作使用全局平均池化將每個(gè)特征通道都?jí)嚎s成一個(gè)實(shí)數(shù),將感受野擴(kuò)展到全局范圍。壓縮計(jì)算過(guò)程如式(2)所示:
其中,uc為通過(guò)卷積后得到的特征圖,c為U的通道數(shù),H×W為U的空間維度。接著,激勵(lì)操作捕獲壓縮后的實(shí)數(shù)列信息,使用兩個(gè)全連接層增加模塊的非線性。先經(jīng)過(guò)第一個(gè)全連接層降維,再通過(guò)整流線性單元ReLU 激活,然后經(jīng)過(guò)第二個(gè)全連接層升維,最后經(jīng)過(guò)sigmoid激活函數(shù),整個(gè)過(guò)程如下:
其中,δ為非線性激活函數(shù)ReLU,W1和W2分別為兩個(gè)全連接層的參數(shù),σ為sigmoid 函數(shù)。最后對(duì)原特征進(jìn)行加權(quán),用原特征逐通道乘以激勵(lì)操作獲得的通道重要度系數(shù),得到具有注意力信息的特征:
改進(jìn)的Mask 分支利用卷積層進(jìn)行下采樣編碼,反卷積層進(jìn)行上采樣。其中上采樣的計(jì)算過(guò)程如式(5)所示:
其中,k為反卷積核大小,f為上采樣因子即為步長(zhǎng)。在上采樣的同時(shí)通過(guò)跳躍連接與SE模塊將不同尺度的淺層高分辨率特征輸入到反卷積層。改進(jìn)的Mask分支網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
圖7 改進(jìn)后的Mask分支Fig.7 Improved Mask branch
其中1、2、3 層均為卷積層,卷積核大小為3,步長(zhǎng)為1。每次卷積之后都跟隨了批歸一化(BN)層以及ReLU 激活函數(shù)。4、5、6、7層為反卷積層,其中4、5、6層的卷積核大小為3,步長(zhǎng)為1,第7 層的卷積核大小為2,步長(zhǎng)為2。輸入14×14 的特征圖,經(jīng)過(guò)3 個(gè)卷積層得到8×8 的特征圖,經(jīng)過(guò)反卷積層得到28×28 的特征圖。對(duì)于反卷積層的輸入,編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)對(duì)稱的層提供跳躍連接,將編碼器網(wǎng)絡(luò)每一層卷積操作的結(jié)果經(jīng)過(guò)SE模塊之后和解碼器網(wǎng)絡(luò)上采樣的結(jié)果進(jìn)行拼接。最后通過(guò)sigmoid層生成二進(jìn)制的分割掩碼。這樣充分利用了不同尺度特征圖所包含的信息,提高特征利用率,使得分割分支在更大的感受野上獲取更豐富的細(xì)節(jié)特征,提高了對(duì)目標(biāo)的細(xì)粒度分割效果。
實(shí)驗(yàn)數(shù)據(jù)使用了包含400 張牙齒全景X 光片的數(shù)據(jù)集,該數(shù)據(jù)來(lái)源于臨床診斷,并經(jīng)過(guò)脫敏處理,數(shù)據(jù)的使用獲得患者同意。其中每張圖片的尺寸為1 024×2 161,其標(biāo)簽數(shù)據(jù)由牙科醫(yī)生利用VIA 工具所標(biāo)注存于CSV 文件中,經(jīng)過(guò)數(shù)據(jù)清洗整理后筆者將其格式轉(zhuǎn)換為Mask R-CNN模型需要的JSON格式標(biāo)簽數(shù)據(jù),該JSON 文件中包含各顆牙齒的輪廓坐標(biāo)、世界口腔聯(lián)盟(Federation Dentaire Internationale,FDI)牙位編號(hào)等信息。
本文采用多任務(wù)加權(quán)損失函數(shù),通過(guò)學(xué)習(xí)不斷減小損失函數(shù)的值,直到獲得全局最優(yōu)解。損失函數(shù)的公式如式(6)所示:
其中,Lcls為分類誤差,Lbox為包圍框誤差,Lmask為分割誤差。原始的損失函數(shù)中,分類、包圍框回歸及分割這3條分支并行處理,具有相同的權(quán)重[13]。然而不同的任務(wù)具有不同的收斂速度,分割任務(wù)屬于語(yǔ)義級(jí)別的分類,其學(xué)習(xí)難度遠(yuǎn)高于目標(biāo)級(jí)別的分類。因此采用加權(quán)損失函數(shù),平衡各項(xiàng)任務(wù)的學(xué)習(xí)。
目前的牙齒分割方法中將所有牙齒劃為一類,這意味著不同牙齒之間也會(huì)相互學(xué)習(xí),從而忽略了的它們之間不同的形態(tài)特征[5,18-19]。例如,切牙與尖牙的牙冠呈楔形,而前磨牙與磨牙的牙冠呈立方形;上頜磨牙牙根為3 根,下頜磨牙為雙根,而其他牙齒多為單根。
為區(qū)分不同牙齒,本文提出了兩種牙齒類別編碼方法,其表示方法分別如式(7)、(8)所示:
編碼算法的偽代碼如下所示。
Algorithm Teeth Coding Input:label of tooth 1:for each label do:2: Compute i=label/10, j=label%10 3: Compute Vi,j=(i-1)*8+j;4: if(j=1 or 2):5: Vk=1;6: else if(j=3):7: Vk=2;8: else if(j=4 or 5):9: Vk=3;10: else:11: Vk=4;Output:Vi,j,Vk
其中,Vi,j依據(jù)FDI牙位表示法進(jìn)行編號(hào)[20],Vk依據(jù)牙齒的形態(tài)特點(diǎn)和功能特性進(jìn)行編號(hào)[21],i代表牙齒所在的象限,j代表牙齒的位置,具體分布如圖8所示。
圖8 牙齒分布示意圖Fig.8 Tooth number indicates
實(shí)驗(yàn)超參數(shù)設(shè)置如下:學(xué)習(xí)率為0.001,批處理大小為100,迭代次數(shù)為35。實(shí)驗(yàn)中80%的數(shù)據(jù)被用于訓(xùn)練集,剩下20%用于測(cè)試。考慮到牙齒分割是像素級(jí)的分類任務(wù),其對(duì)數(shù)據(jù)量的要求比牙位識(shí)別高。由于數(shù)據(jù)量較少,我們無(wú)法從頭訓(xùn)練整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)此我們采用遷移學(xué)習(xí)的方法來(lái)提升網(wǎng)絡(luò)的訓(xùn)練效果。遷移學(xué)習(xí)是指將某個(gè)領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識(shí)或模式應(yīng)用到不同但相關(guān)的領(lǐng)域或問(wèn)題中[22]。在我們所使用的模型中,主干網(wǎng)絡(luò)特征提取部分采用遷移學(xué)習(xí)的思想導(dǎo)入了在MS COCO 數(shù)據(jù)集[23]上的預(yù)訓(xùn)練權(quán)重,并運(yùn)用已有的數(shù)據(jù)對(duì)網(wǎng)絡(luò)頭部進(jìn)行微調(diào)。之后分別采用公式(7)、(8)兩種類別表示方法Vk和Vi,j進(jìn)行實(shí)驗(yàn),并記為實(shí)驗(yàn)一(Mask RCNN-1)、實(shí)驗(yàn)二(Mask R-CNN-2)。
為評(píng)估實(shí)驗(yàn)結(jié)果,我們采用了交并比(Intersection Over Union,IOU)閾值為0.50時(shí)的精度值和召回率[24],即IOU值大于0.5時(shí)為正樣本,反之為負(fù)樣本。其中精準(zhǔn)率(precision)反映了查準(zhǔn)率,它表示的是預(yù)測(cè)為正的樣本中有多少是真正的正樣本,而召回率(recall)反映了查全率,它表示樣本中的正例有多少被預(yù)測(cè)正確,計(jì)算公式如式(9)、(10)所示:
其中,TP、FN 和FP 分別表示真陽(yáng)性、假陰性和假陽(yáng)性。真陽(yáng)性是指預(yù)測(cè)為正,實(shí)際為正;假陰性是指預(yù)測(cè)為負(fù),實(shí)際為正;假陽(yáng)性是指預(yù)測(cè)為正,實(shí)際為負(fù)。
圖9為實(shí)例分割結(jié)果,可以看出牙齒的位置、類別及語(yǔ)義信息都被提取。為方便與其他方法相對(duì)比,文中將分割結(jié)果與分類結(jié)果分開進(jìn)行對(duì)比討論。
圖9 實(shí)例分割結(jié)果Fig.9 Results of instance segmentation
4.2.1 分割結(jié)果兩組類別編碼方式的實(shí)驗(yàn)結(jié)果與U-net[18]和傳統(tǒng)圖像處理方法及原始Mask R-CNN[6]方法結(jié)果對(duì)比如表1所示,其中區(qū)域增長(zhǎng)[5]為傳統(tǒng)圖像處理方法的分割結(jié)果;Mask R-CNN-1 與Mask R-CNN-2分別為實(shí)驗(yàn)一與實(shí)驗(yàn)二的分割結(jié)果??梢钥闯錾疃葘W(xué)習(xí)方法相比于傳統(tǒng)圖像處理方法有著明顯優(yōu)勢(shì),在精準(zhǔn)率上傳統(tǒng)Mask R-CNN 表現(xiàn)最優(yōu),在召回率上Mask R-CNN-1表現(xiàn)最優(yōu)。相比于U-net,Mask R-CNN-1在精準(zhǔn)率和召回率上提升了4%和1%,Mask R-CNN-2在精準(zhǔn)率上提升了2%。然而在Mask R-CNN-1 與Mask R-CNN-2 的對(duì)比中,Mask R-CNN-2 的精準(zhǔn)率和召回率都遠(yuǎn)低于Mask R-CNN-1。
表1 牙齒分割結(jié)果對(duì)比Tab.1 Comparison of teeth segmentation results
圖10為實(shí)驗(yàn)一與實(shí)驗(yàn)二的分割結(jié)果。在Mask R-CNN-1 中,每顆牙齒都生成了掩膜,但是存在掩膜覆蓋不完整的情況,如圖中的33、34 號(hào)牙。在Mask R-CNN-2 中,存在較多的牙齒并沒(méi)有生成掩膜,如18、34、38號(hào)牙。造成這種結(jié)果的原因是Mask R-CNN-1將牙齒分為4 類,同1 類下的不同實(shí)例之間相互貢獻(xiàn)損失,而Mask R-CNN-2 將牙齒分為32 類,每1 類下只有1 個(gè)實(shí)例,無(wú)法相互貢獻(xiàn)損失,因此實(shí)驗(yàn)二的分割效果不如實(shí)驗(yàn)一。
圖10 分割結(jié)果Fig.10 Segmentation results
4.2.2 分類結(jié)果兩組實(shí)驗(yàn)結(jié)果與Faster R-CNN[12]方法的結(jié)果對(duì)比如表2所示,其中Mask R-CNN-1 與Mask R-CNN-2 分別為本文實(shí)驗(yàn)一與實(shí)驗(yàn)二的分類結(jié)果。表中顯示Mask R-CNN-1 表現(xiàn)最優(yōu),能準(zhǔn)確識(shí)別出牙齒并根據(jù)功能分類,但是其只做了四分類,無(wú)法做到牙位識(shí)別的效果。Faster R-CNN 與Mask R-CNN-2 都是對(duì)牙齒做32 分類,能夠有效識(shí)別出不同的牙位,但Mask R-CNN-2 精度相比于Faster R-CNN 有所提升。另外,在Mask R-CNN-1 與Mask R-CNN-2 的對(duì)比中,Mask R-CNN-2 的精準(zhǔn)率和召回率都遠(yuǎn)低于Mask R-CNN-1。
表2 牙齒分類結(jié)果對(duì)比Tab.2 Comparison of teeth classification results
圖11為實(shí)驗(yàn)一與實(shí)驗(yàn)二的目標(biāo)檢測(cè)結(jié)果,表3對(duì)應(yīng)為圖11中目標(biāo)檢測(cè)包圍框上方的文字即目標(biāo)分類標(biāo)簽及其分?jǐn)?shù)值。從圖11和表3可以看出在Mask R-CNN-1 中的查全率較高,每顆牙齒都被檢測(cè)且都正確分類,識(shí)別分?jǐn)?shù)均值能達(dá)到0.93 以上。Mask RCNN-2 中存在沒(méi)有檢測(cè)到的目標(biāo),如圖中14、24、27、34 牙位的牙齒并沒(méi)有包圍框;且檢測(cè)到的目標(biāo)分?jǐn)?shù)比Mask R-CNN-1要低,均值在0.95左右。
表3 檢測(cè)結(jié)果對(duì)比Tab.3 Comparison of detection results
圖11 分類結(jié)果Fig.11 Classification results
綜合兩種實(shí)驗(yàn)方案,實(shí)驗(yàn)一在牙齒分割任務(wù)中表現(xiàn)優(yōu)于實(shí)驗(yàn)二,但是其牙齒分類程度沒(méi)有實(shí)驗(yàn)二精細(xì),無(wú)法做到牙位識(shí)別的效果。實(shí)驗(yàn)二能較好的完成牙位識(shí)別任務(wù),卻也因其各個(gè)牙位之間的分割損失值不能共享而導(dǎo)致分割效果不好.但是兩組實(shí)驗(yàn)充分證明了Mask R-CNN具備同時(shí)實(shí)現(xiàn)牙齒分割和牙齒分類的能力,且能保證在牙齒分類與分割的精度達(dá)到90%。在過(guò)去的研究中[19],我們針對(duì)單顆牙齒應(yīng)用灰度值統(tǒng)計(jì)方法進(jìn)行紋理分析,可以在一定程度上反映牙齒正常與否,與本文方法相結(jié)合,可以為單顆牙齒的病理分析提供一定的基礎(chǔ),且對(duì)于各顆牙齒之后的齲齒、牙周病、根尖炎的疾病診斷分析有重要支撐作用。但是實(shí)驗(yàn)中使用的預(yù)訓(xùn)練模型是基于MS COCO數(shù)據(jù)集,與文中的牙齒X光片數(shù)據(jù)集相似度較低,在未來(lái)的研究中可以考慮采用其他的X光片數(shù)據(jù)集,這可以在一定程度上降低微調(diào)的難度,得到更好的實(shí)驗(yàn)結(jié)果。另外,實(shí)際診療過(guò)程中的牙齒X光片往往存在缺牙、殘根及種植體等非正常情況,這對(duì)于本文的模型來(lái)說(shuō)是一個(gè)挑戰(zhàn)。在之后的工作中可以考慮加入應(yīng)用牙齒排列的規(guī)則等其他后處理方法,有針對(duì)性的進(jìn)行分析。
本文基于Mask R-CNN 模型對(duì)牙齒X 射線全景圖中的牙齒進(jìn)行分割和分類研究,以求較為準(zhǔn)確的描繪出X 射線全景圖上的每顆牙齒的形態(tài)與位置。從牙齒功能和FDI 牙位表示兩種編碼方式的實(shí)驗(yàn)表明,使用改進(jìn)的Mask R-CNN 能同時(shí)進(jìn)行牙齒分割和牙齒分類任務(wù),并在這兩項(xiàng)任務(wù)中均達(dá)到90%以上的精確率,實(shí)現(xiàn)了牙齒語(yǔ)義、位置及類別信息的融合提取。但是在語(yǔ)義信息提取上仍然存在一定的提升空間,該問(wèn)題可能是由于數(shù)據(jù)集中影像數(shù)量較少造成。在將來(lái)的研究中,我們考慮進(jìn)一步提高實(shí)驗(yàn)精準(zhǔn)度,并基于實(shí)驗(yàn)結(jié)果進(jìn)行智能分析系統(tǒng)研究。