廖忠劍 文興林 劉艷平 鄧星星 范存庚 雷 劍
江西省贛州市人民醫(yī)院CT室 341000
近年,小腸癌發(fā)病率明顯上升,早期檢測(cè)并采取有效的治療措施,可有效提高存活率,避免病情繼續(xù)惡化。但小腸結(jié)構(gòu)迂曲復(fù)雜、活動(dòng)度大、長(zhǎng)度大,難以通過常規(guī)檢查手段有效檢測(cè)病灶,同時(shí)小腸病變多具有隱匿性特點(diǎn),臨床癥狀無明顯的特異性,因此小腸病變的診斷一直是一大難題[1]。目前,在小腸病變輔助檢測(cè)中,常用的有氣鋇雙重造影、CT影像、MRI、灌腸造影、膠囊內(nèi)鏡、雙氣囊內(nèi)鏡造影幾種檢查方法,但這些檢查方式診斷價(jià)值有限或因有創(chuàng)性而存在一定的局限性[2]。相較而言,小腸CT造影技術(shù)具有成像速度快、分辨率高的優(yōu)勢(shì),在小腸血管性病變、炎性病變、小腸腫瘤、不明原因消化道出血等病變?cè)\斷方面都有較高的價(jià)值[3-4]。但小腸CT造影技術(shù)主要獲取掃描影像,依賴于醫(yī)師對(duì)影像的解讀能力,主觀性較強(qiáng),易造成誤診、漏診現(xiàn)象[5]。大量人工智能技術(shù)在圖像識(shí)別方面的研究應(yīng)用顯示,利用人工智能技術(shù)能準(zhǔn)確地提取圖像特征,找出圖像的特異性[6-8]。為此,本研究以512層螺旋薄層掃描小腸CT圖像和病理報(bào)告為基礎(chǔ),基于卷積神經(jīng)網(wǎng)絡(luò)ResNet 101[9]、目標(biāo)檢測(cè)算法模型(Faster R-CNN)[10]結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[11]構(gòu)建小腸圖像特征,提取描述循環(huán)迭代模型(以下簡(jiǎn)稱RF-LSTM),通過模型輸出小腸病變圖像特征信息和病變類型,為醫(yī)師診斷提供更為客觀的特征數(shù)據(jù),以提高小腸疾病診斷的準(zhǔn)確性。
1.1 材料及設(shè)備 篩選我院2020年1月—2022年1月行512層螺旋CT薄層掃描重建圖像及相應(yīng)的病理診斷報(bào)告共計(jì)1 572套,每套材料包括CT平掃、動(dòng)脈期、靜脈期、延遲期軸位和冠位圖像及病理報(bào)告,主要包含了出血、糜爛、潰瘍、炎性息肉、腺瘤性息肉、脂肪瘤、腺癌、間質(zhì)瘤、淋巴瘤等病變類型,部分病例存在多種病變。按7∶3比例隨機(jī)分為訓(xùn)練組和測(cè)試組,具體見表1。納入標(biāo)準(zhǔn):(1)圖像顯示清晰,結(jié)構(gòu)顯示清晰;(2)圖像上無標(biāo)線、標(biāo)注等非原始掃描圖像記號(hào);(3)病例均經(jīng)過病理診斷,圖像有相應(yīng)的病理報(bào)告;(4)每套圖像中,CT平掃、動(dòng)脈期、靜脈期、延遲期軸位、冠位圖像均完整。
表1 樣本材料病變類型及數(shù)量
本研究中,所收集的病例圖像均在我院由GE公司Revolution 256排512層螺旋CT行小腸薄層CT掃描。圖像經(jīng)MPR、MIP進(jìn)行后處理重建圖像,重建層厚1~1.5mm,重建間隔0.6~1mm。采用Python編程語言編程構(gòu)建模型,采用Pytorch深度學(xué)習(xí)框架。
1.2 數(shù)據(jù)預(yù)處理及增強(qiáng) 本研究中所收集的圖像資料為CT重建圖像,其尺寸較大,而ResNet 101模型的輸入尺寸為224×224,因此需要對(duì)原始圖像資料進(jìn)行壓縮處理,統(tǒng)一壓縮至224×224。對(duì)病理報(bào)告進(jìn)行處理,并由4位醫(yī)師盲讀圖像補(bǔ)充描述性標(biāo)簽,通過分詞建立規(guī)整且符合模型輸入要求的語料,主要包括病變類型、腸壁狀態(tài)、平掃CT值、增強(qiáng)CT值、腸管壁密度特征、腸管周圍脂肪間隙CT值、腸壁黏膜完整性、病灶形態(tài)、邊緣特征、積液、系膜特征。測(cè)試樣本圖像診斷后,收集影像特征醫(yī)師判斷錯(cuò)誤結(jié)果匯總數(shù)據(jù),用以檢驗(yàn)?zāi)P蛨D像識(shí)別能力。
對(duì)訓(xùn)練組的樣本數(shù)據(jù)進(jìn)行增廣處理,采用幾何變換的方法來增加樣本的多樣性。具體方法為對(duì)訓(xùn)練組圖像進(jìn)行小比例縮小和放大、對(duì)圖像進(jìn)行一定裁剪,對(duì)圖像進(jìn)行旋轉(zhuǎn),使訓(xùn)練組樣本量增加6倍,訓(xùn)練樣本數(shù)據(jù)增廣至8 648例,共計(jì)87 942張CT圖像。
1.3 模型構(gòu)建 本研究中構(gòu)建的RF-LSTM模型,包括編碼器和解碼器兩個(gè)模塊,編碼器負(fù)責(zé)圖像特征的提取,解碼器負(fù)責(zé)將提取出的圖像特征翻譯為病變信息,搭建一個(gè)encoder-decoder的端對(duì)端圖像描述神經(jīng)網(wǎng)絡(luò)模型。編碼器采用卷積神經(jīng)網(wǎng)絡(luò)ResNet 101和目標(biāo)檢測(cè)算法Faster R-CNN構(gòu)建,圖像輸入后首先通過ResNet 101提取圖像特征(ROI),采用Faster R-CNN來結(jié)合ResNet 101提取的圖像特征探索疑似病變區(qū)域,提取疑似病變區(qū)特征,再將ResNet 101提取的圖像特征與Faster R-CNN提取的疑似病變區(qū)圖像特征進(jìn)行特征融合,將融合后的新特征轉(zhuǎn)換為特征向量輸入解碼器;解碼器采用長(zhǎng)短期記憶網(wǎng)絡(luò)模型LSTM作為語言模型,根據(jù)編碼器提取的圖像特征生成文字解釋詞匯,經(jīng)過反復(fù)迭代后直至產(chǎn)生完整的描述,輸出病變特征的語言描述,模型結(jié)構(gòu)見圖1。
圖1 模型結(jié)構(gòu)圖
1.4 圖像特征提取方法 圖像特征的提取采用ResNet 101模型結(jié)合Faster R-CNN提取圖像特征的方法。首先,使用ResNet 101模型對(duì)輸入的CT圖像進(jìn)行卷積和池化,根據(jù)病變類型和病變復(fù)合狀態(tài)組建17分類網(wǎng)絡(luò),epochs=200,batch_size=16,drop_out=0.1,學(xué)習(xí)率0.000 1,默認(rèn)優(yōu)化方法采用SGD,提取圖像特征數(shù)據(jù)構(gòu)建14×14×2 048的圖像特征向量。再根據(jù)RestNet 101模型提取出的圖像特征,利用Faster R-CNN以圖像特征為中心鋪設(shè)錨框,判斷錨框內(nèi)是否含有疑似病變部位,并修正錨框邊界,挑選出疑似病變部位概率>0.8的目標(biāo)區(qū)域,提取出疑似病變區(qū)域的圖像特征數(shù)據(jù)構(gòu)建圖像特征向量。最后,將ResNet 101提取出的圖像特征與Faster R-CNN提取出的疑似病變區(qū)域圖像特征進(jìn)行融合,提高圖像特征的準(zhǔn)確度和豐富性,降低信息冗余干擾,最終形成新的疑似病變部位圖像特征向量。
1.5 圖像診斷文本生成 圖像特征的文字解碼采用LSTM模型來完成,采用表現(xiàn)效果的單向循環(huán)神經(jīng)網(wǎng)絡(luò)來構(gòu)建模型進(jìn)行解碼,信息的傳遞采用從前往后的單向傳遞方式。根據(jù)抽取的圖像特征參數(shù),捕捉圖像特征語義,自上而下的循環(huán)迭代遍歷語料庫,找到最合理的描述詞語組成診斷文本。
1.6 評(píng)價(jià)指標(biāo) 采用診斷文本質(zhì)量評(píng)價(jià)指標(biāo)、診斷準(zhǔn)確率(正確判斷病變類型數(shù)量占總數(shù)量的比例)、病變部位提取正確率指標(biāo)三個(gè)指標(biāo)對(duì)模型性能進(jìn)行評(píng)價(jià)[12]。各病變類型隨機(jī)抽取50張圖像10個(gè)病變類型共計(jì)500張,由4名醫(yī)師采用五級(jí)量化方法,結(jié)合病理報(bào)告對(duì)模型生成診斷文本質(zhì)量進(jìn)行評(píng)分。1分=質(zhì)量極低,11個(gè)特征描述錯(cuò)誤項(xiàng)≥3項(xiàng);2分=質(zhì)量較低,描述錯(cuò)誤項(xiàng)2項(xiàng)以內(nèi);3分=一般,無錯(cuò)誤項(xiàng),僅詞句結(jié)構(gòu)不完全合理,可用于輔助診斷;4分=極匹配,無錯(cuò)誤項(xiàng),詞句結(jié)構(gòu)基本合理,并能少量發(fā)現(xiàn)人工閱片遺漏錯(cuò)誤的地方;5分=完美,無錯(cuò)誤項(xiàng),僅少量詞句結(jié)構(gòu)不合理,并能發(fā)現(xiàn)較多人工閱片遺漏錯(cuò)誤的地方,有極大的輔助診斷價(jià)值。重點(diǎn)篩選1分、2分樣本進(jìn)行分析。
2.1 文本質(zhì)量評(píng)價(jià)結(jié)果 模型訓(xùn)練完成后,輸入測(cè)試樣本數(shù)據(jù),輸出圖像的文本診斷結(jié)果,統(tǒng)計(jì)4名醫(yī)師對(duì)文本質(zhì)量的人工評(píng)價(jià)結(jié)果,分別為(4.08±0.692)分、(3.97±0.687)分、(4.05±0.635)分、(4.04±0.651)分。4名醫(yī)師人工評(píng)價(jià),模型輸出診斷結(jié)果文本質(zhì)量在4分左右,4名醫(yī)師對(duì)文本質(zhì)量評(píng)價(jià)較統(tǒng)計(jì),評(píng)價(jià)差異無統(tǒng)計(jì)學(xué)意義(F=1.498,P=0.213>0.05)。
4名醫(yī)師對(duì)質(zhì)量極低、質(zhì)量較低的模型輸出樣本評(píng)價(jià)完全一致,在3分、4分、5分評(píng)價(jià)上存在顯著差異,具有統(tǒng)計(jì)學(xué)意義(P<0.05)。見表2。
表2 醫(yī)師人工評(píng)價(jià)各分段分布情況(例)
2.2 診斷準(zhǔn)確率 統(tǒng)計(jì)病變類型模型判斷正確與錯(cuò)誤的圖像樣本數(shù)量,計(jì)算診斷正確率,并與醫(yī)師僅憑圖像的診斷正確率對(duì)比,見表3。各病變類型圖像的病變判斷中,正確率均高于90%,其中對(duì)腺癌的判斷正確率稍低,為92.47%。
表3 模型診斷準(zhǔn)確率統(tǒng)計(jì)結(jié)果
2.3 病變部位提取正確率 在病變部位的提取上,提取病變組織部位圖像的正確率均超過99%。見表4。
表4 模型病變部位提取正確率統(tǒng)計(jì)結(jié)果
圖像描述技術(shù)是一種通過計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、自然語言處理等技術(shù),對(duì)圖像進(jìn)行分析識(shí)別并生成文本描述的技術(shù)。在早期圖像描述研究領(lǐng)域,主要采用基于模板匹配的方法利用事先制定的規(guī)則生成圖像描述,但檢測(cè)精度和準(zhǔn)確率不高。隨著人工智能技術(shù)的發(fā)展尤其是深度學(xué)習(xí)技術(shù)的進(jìn)步,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)被應(yīng)用于圖像描述技術(shù)中,以結(jié)合性地解決圖像描述精度和準(zhǔn)確率不高的問題,并形成了多種模型,如Show and Tell模型、g-LSTM模型、Adaptive-att模型、自適應(yīng)Attention模型等,使得圖像描述技術(shù)得到極大提高。大量研究顯示,圖像描述技術(shù)應(yīng)用中,生成的描述文本往往對(duì)語義信息考慮不足。劉茂福等[13]針對(duì)視覺關(guān)聯(lián)和上下文信息差異問題,采用雙注意力機(jī)制建立了VRCDA模型,結(jié)果顯示采用雙注意力機(jī)制能有效提高文本描述的語義表達(dá)能力。傅煦熙等[14]針對(duì)這一問題,則采用了融合MOGRIFIER網(wǎng)絡(luò)的方法,對(duì)內(nèi)容信息分配不同的權(quán)重以獲得更準(zhǔn)確的描述,語義表達(dá)能力有較明顯的提升。劉青茹等[15]針對(duì)復(fù)雜場(chǎng)景圖像的細(xì)節(jié)描述深層語義不足現(xiàn)象,采用多尺度特征環(huán)路融合、多分支空間分步注意的方法建立了多重注意力結(jié)構(gòu)模型提取圖像特征,基于LSTM解碼進(jìn)行圖像描述,結(jié)果顯示多重注意力結(jié)構(gòu)能有效提升圖像描述的深層語義表達(dá)能力。
目前,相關(guān)研究和應(yīng)用雖然已經(jīng)在社會(huì)生產(chǎn)生活的多個(gè)領(lǐng)域展開,且成為人工智能領(lǐng)域研究的一大熱點(diǎn),但在醫(yī)療影像輔助診斷領(lǐng)域的研究和應(yīng)用還較少。張俊三等[16]采用共同力機(jī)制進(jìn)行視覺特征和語義特征的綜合處理,結(jié)合對(duì)抗網(wǎng)絡(luò)GAN和強(qiáng)化學(xué)習(xí)RL方法建立模型,結(jié)果顯示該模型能較好地輸出高質(zhì)量報(bào)告。林玉萍等[17]以青光眼影像數(shù)據(jù)為材料,采用深度水平集算法結(jié)合自然語言處理,生成影像的文本標(biāo)注,結(jié)果顯示模型有較好的信息表征能力。沈秀軒等[18]基于醫(yī)學(xué)圖像全局特征,采用卷積神經(jīng)網(wǎng)絡(luò)和Transformer模型進(jìn)行融合建模,基于深度學(xué)習(xí)生成醫(yī)學(xué)影像報(bào)告,實(shí)驗(yàn)表明在醫(yī)學(xué)影像報(bào)告的生成上有極大的有效性 。但醫(yī)學(xué)報(bào)告的語言結(jié)構(gòu)和語義表達(dá)需要極高的準(zhǔn)確性,目前研究多采用Bleu、Moteor、Rouge、CIDEr等指標(biāo)來評(píng)價(jià)文本質(zhì)量,對(duì)語義特征的評(píng)價(jià)能力不足。同時(shí),現(xiàn)在研究還未見關(guān)于小腸病變CT圖像的智能化圖像描述研究。本研究中,采用醫(yī)師人工評(píng)價(jià)模型輸出的影像報(bào)告文本質(zhì)量的方式,構(gòu)建基于RestNet 101、Faster R-CNN、LSTM的圖像描述模型,對(duì)512層螺旋CT薄層掃描重建圖像進(jìn)行文本描述,醫(yī)師評(píng)價(jià)文本質(zhì)量平均分在4分左右,在11項(xiàng)特征描述中,僅0.8%的樣本產(chǎn)生錯(cuò)誤描述項(xiàng),其余樣本均能進(jìn)行正確描述,但有約35%左右的樣本存在詞句結(jié)構(gòu)較明顯的不合理現(xiàn)象,表明模型能進(jìn)行正確的病變影像特征判斷,但在詞句結(jié)構(gòu)組合上還有所不足,不過模型能發(fā)現(xiàn)較多醫(yī)生肉眼未能識(shí)別出的病變影像特征并進(jìn)行文本描述,可為醫(yī)生臨床診斷提供更為豐富的信息。
本研究中,對(duì)模型的9病變類型及正常樣本診斷準(zhǔn)確率進(jìn)行了分析,結(jié)果顯示模型能很好地通過CT影像辨識(shí)小腸病變類型,正確率均高于90%,在出血、糜爛、息肉、腫瘤等病變類型上均有極強(qiáng)的識(shí)別能力,僅對(duì)腺癌的識(shí)別能力稍弱,正確率為92.47%,分析發(fā)現(xiàn)對(duì)腺癌識(shí)別能力稍弱,主要是由于其CT圖像特征與腺瘤性息肉極為近似,因此易出現(xiàn)誤診為腺瘤性息肉的現(xiàn)象。醫(yī)師在各病變類型的誤診漏診上都明顯高于模型識(shí)別結(jié)果,正確率基本處于85%以下,對(duì)腺癌的正確診斷率更僅60.77%,實(shí)驗(yàn)顯示模型能更為準(zhǔn)確地借助CT影像識(shí)別病變類型,可為醫(yī)師提供有效的輔助診斷信息。分析其原因,在僅依靠CT圖像進(jìn)行病變類型診斷時(shí),醫(yī)師更多地依靠主觀經(jīng)驗(yàn)和圖像認(rèn)識(shí)水平進(jìn)行診斷,在對(duì)圖像的精細(xì)特征信息把握上不足,而模型能更多地識(shí)別出CT圖像中的精細(xì)特征信息,從而作出更準(zhǔn)確的判斷。與其他部分利用人工智能技術(shù)進(jìn)行小腸病變類型定性診斷的研究結(jié)果相比,本研究對(duì)小腸病變類型的診斷準(zhǔn)確率普遍更優(yōu),分析其原因與本研究中所建立的模型采用RestNet 101和Faster R-CNN兩個(gè)模型提取圖像特征進(jìn)行融合有關(guān),兩個(gè)模型提取圖像征特信息進(jìn)行ROI融合后,能獲得更為豐富的圖像特征信息,有利于病變類型的診斷識(shí)別。而在病變部位的提取準(zhǔn)確率上,本研究所建立的模型能極為準(zhǔn)確地定位病變部位,提取正確率均達(dá)到99%,但在正常圖像上略有所不足,出現(xiàn)在0.53%的正常圖像樣本中識(shí)別出病變部位的現(xiàn)象。分析其原因,主要因?yàn)殄e(cuò)誤提取的正常圖像中,存在一定的與病變部位近似的圖像特征,被錯(cuò)誤地認(rèn)為存在糜爛、炎性息肉等病變。
當(dāng)前,圖像描述技術(shù)在各領(lǐng)域均有較多的應(yīng)用和研究,并展現(xiàn)出極高的應(yīng)用價(jià)值。本研究中,基于RestNet 101和Faster R-CNN構(gòu)建編碼器,提取512層螺旋CT薄層掃描小腸重建圖像的圖像特征參數(shù)進(jìn)行ROI融合,采用LSTM進(jìn)行解碼,對(duì)病變類型和影像特征進(jìn)行描述,共包含了正常圖像和9種小腸病變類型,設(shè)計(jì)了11個(gè)病變部位影像特征標(biāo)簽。研究結(jié)果顯示,模型對(duì)病變類型有較好的識(shí)別能力,并能較為準(zhǔn)確地描述病變部位影像特征,同時(shí)還能正確辨識(shí)部分醫(yī)師人工閱片未能準(zhǔn)確判斷的影像特征,能為醫(yī)師臨床診斷提供更為豐富、準(zhǔn)確的輔助診斷信息,具有一定的研究及推廣應(yīng)用價(jià)值。采用RestNet 101和Faster R-CNN構(gòu)建編碼器,可有效提取512層螺旋CT薄層掃描小腸重建圖像的病變特征參數(shù),運(yùn)用LSTM對(duì)病變特征進(jìn)行解碼,可以準(zhǔn)確根據(jù)圖像病變特征識(shí)別病變類型,并以中文輸出病變部位影像特征和病變類型,同時(shí)還可識(shí)別部分醫(yī)師人工閱片無法判斷的影像特征,可為醫(yī)師臨床診斷提供更為豐富的輔助診斷信息,具有研究及推廣應(yīng)用價(jià)值。