吳洪渝
摘要:目前,我國(guó)的醫(yī)療資源嚴(yán)重的分配不均勻。我國(guó)共有醫(yī)療衛(wèi)生機(jī)構(gòu)989,403個(gè),其中基層醫(yī)療衛(wèi)生機(jī)構(gòu)占據(jù)了總體的9成以上,而醫(yī)院僅有不到3萬(wàn)個(gè),比例不足3%。并且如今就醫(yī)的趨勢(shì)進(jìn)一步向三甲醫(yī)院集中。根據(jù)統(tǒng)計(jì),在因?yàn)榘┌Y死亡的人數(shù)之中,肺癌也是目前世界上死亡率最高的癌癥之一,并且這個(gè)數(shù)字還在不斷的上升。肺癌有一個(gè)最主要的特征就是存在肺結(jié)節(jié)。如果能在早期發(fā)現(xiàn)肺結(jié)節(jié)的話,早期癌癥的治愈率超過(guò)90%,手術(shù)后3-5天就可以出院,并發(fā)癥少,而且手術(shù)費(fèi)用低廉只要28000元左右。但是由于當(dāng)今針對(duì)肺癌早期診斷效果非常不佳,通?;颊弑辉\斷出肺癌的時(shí)候都已經(jīng)為時(shí)已晚,正常的患者往往只能存活5年的時(shí)間。但是在這個(gè)過(guò)程之中會(huì)產(chǎn)生大量的CT圖片,會(huì)大大增加醫(yī)生的工作壓力,在這種情況之下,如何提高就醫(yī)的效率以及更加合理的利用醫(yī)療資源成為了炙手可熱的問(wèn)題。本文提出一種,基于深度學(xué)習(xí)的肺結(jié)節(jié)檢測(cè)方案,能夠合理的利用CT片,并且有效的減輕醫(yī)生的負(fù)擔(dān),同時(shí)也讓患者更加明了自身的病情。
關(guān)鍵詞:圖像識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);檢測(cè)方案
1 前言
隨著人工智能技術(shù)的發(fā)展,人工智能在生活中的各個(gè)方面的應(yīng)用越來(lái)越多??梢哉f(shuō)現(xiàn)在的人工智能技術(shù)取得了很大的發(fā)展,在某些領(lǐng)域已經(jīng)超過(guò)人類的水平,比如說(shuō)圍棋。人工智能在醫(yī)療領(lǐng)域上的應(yīng)用也逐漸增多。在醫(yī)療方面也不例外,目前主要分為“AI與影像輔助診斷”、“AI與藥物開(kāi)發(fā)”和“AI與醫(yī)療機(jī)器人”三個(gè)研究方向,在國(guó)內(nèi),阿里、騰訊、百度、科大訊飛、華大基因都在利用人工智能技術(shù)在醫(yī)療領(lǐng)域做一些相關(guān)的開(kāi)發(fā),比如2018年騰訊開(kāi)啟的“騰訊尋影”,2017年阿里在糖尿病這一領(lǐng)域的AI等不同領(lǐng)域的醫(yī)療AI。但是目前AI在整個(gè)大環(huán)境下都是處于一種研發(fā)和測(cè)試的狀態(tài)下,暫時(shí)還沒(méi)有在各大醫(yī)院中盛行。一旦做到可以商用的地步,那對(duì)于整個(gè)醫(yī)療體系來(lái)說(shuō),都是一個(gè)翻天覆地的改革。
2 正文
2.1產(chǎn)品功能概述
在本文中,我們提出的肺結(jié)節(jié)檢測(cè)AI中包括的功能主要有:對(duì)標(biāo)記數(shù)據(jù)進(jìn)行解析讀取、對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練、模型對(duì)讀取CT片、對(duì)CT片進(jìn)行識(shí)別并且標(biāo)注和根據(jù)計(jì)算的結(jié)果給出一定的建議以及治療方案。該模型的訓(xùn)練數(shù)據(jù)集來(lái)自LIDC-IDRI,該數(shù)據(jù)集是由美國(guó)癌癥研究所(National Cancer Institute)收集并且公開(kāi)的。數(shù)據(jù)集里面含有胸部CT圖片、X光片(以512*512分辨率的形式存儲(chǔ))以及專家標(biāo)注的病變的結(jié)果,結(jié)果以xml的形式進(jìn)行儲(chǔ)存。利用專家的標(biāo)注,將病變的數(shù)據(jù)提取出來(lái),作為模型的初始訓(xùn)練數(shù)據(jù)。在生活中,醫(yī)生只需要將患者的CT圖像輸入到該模型中,就能夠得到標(biāo)注結(jié)果之后的圖片。這樣會(huì)讓醫(yī)生檢驗(yàn)這張CT片的時(shí)候,會(huì)格外注意這些有標(biāo)注的位置。在早期,由于數(shù)據(jù)的來(lái)源比較單一。會(huì)出現(xiàn)一些誤檢的情況,醫(yī)生在確定之后,可以對(duì)其進(jìn)行標(biāo)準(zhǔn),作為下一次模型訓(xùn)練得數(shù)據(jù)。從而使得模型的正確率越來(lái)越高。
2.2產(chǎn)品原理
①醫(yī)學(xué)影像輸入到模型之中;
②模型對(duì)每一個(gè)切分單位進(jìn)行識(shí)別;
③根據(jù)識(shí)別結(jié)果對(duì)圖片進(jìn)行標(biāo)注;
④生成醫(yī)療報(bào)告;
2.3關(guān)鍵技術(shù)
2.3.1圖像邊緣填充算法
在整個(gè)產(chǎn)品的開(kāi)發(fā)過(guò)程中,首先應(yīng)該先對(duì)圖片進(jìn)行灰度化、二值化處理。然后根據(jù)數(shù)據(jù)集中的標(biāo)注,對(duì)xml文件進(jìn)行解析,獲取到病變結(jié)節(jié)的一些主要的屬性。比如圖片的Id號(hào)、坐標(biāo)、半徑。根據(jù)統(tǒng)計(jì)病變結(jié)節(jié)在半徑為28像素以下的占總的病變數(shù)目的95%,所以這里以28*28的分辨率為一個(gè)單位進(jìn)行處理。在病變結(jié)節(jié)的半徑大于28像素的時(shí)候,選擇以縮放的形式對(duì)其進(jìn)行處理。因?yàn)閷<以跀?shù)據(jù)集中只標(biāo)注了病變結(jié)節(jié)的輪廓,導(dǎo)致要對(duì)輪廓進(jìn)行填充,根據(jù)邊緣填充算法實(shí)現(xiàn)填充。
2.3.2掃描式匹配算法
在對(duì)一張圖片進(jìn)行識(shí)別的時(shí)候,在模型中是將CT片或者X光片切割成許許多多的28*28為一個(gè)單位的圖片。然后把每一張分割之后的圖片作為輸入,利用之前訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算。將分類為病變結(jié)節(jié)的圖片保存為圖片的編號(hào)、病變結(jié)節(jié)的中心位置、病變結(jié)節(jié)的半徑等信息。之后再我們利用縮放技術(shù)進(jìn)行更大像素的切割和匹配。
2.3.3 DBSCAN分類聚類算法
DBCSAN(Density-Based Spatial Clustering of Application with Noise)算法是一種非常經(jīng)典的分類聚類算法,它是基于密度來(lái)進(jìn)行分類聚類的。在該產(chǎn)品中,我們?cè)谏鲜黾夹g(shù)之后得到的只是一個(gè)病變位置的大概區(qū)域,是以28*28為一個(gè)基本單位的范圍。產(chǎn)品中想將病變結(jié)節(jié)很好的提取出來(lái),選用了DBSCAN算法。圖片經(jīng)過(guò)二值化的處理,只存在為0和1的色素。根據(jù)九宮格的原理對(duì)密度進(jìn)行設(shè)置,最終提取出結(jié)節(jié)形態(tài),并在原圖中進(jìn)行展示。
3模型的正確率和產(chǎn)品正確率的檢驗(yàn)
因?yàn)樯窠?jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力非常之強(qiáng),在項(xiàng)目中,總共提取了50000多張正樣本以及等量的負(fù)樣本。對(duì)整個(gè)網(wǎng)絡(luò)重復(fù)訓(xùn)練5次,模型的正確率能夠達(dá)到95%以上。但是在實(shí)際檢測(cè)新的CT圖片時(shí)候,10張中存在2、3張出現(xiàn)誤檢,正確率大概為70%-75%,這樣的正確率肯定是不能夠用以商用的??赡艽嬖谶^(guò)擬合的問(wèn)題,正在籌劃與醫(yī)學(xué)院進(jìn)行合作。從而以更加專業(yè)的知識(shí),對(duì)模型進(jìn)行改進(jìn)。
參考文獻(xiàn):
[1]周兵 CT影像中肺結(jié)節(jié)檢測(cè)與識(shí)別方法的研究 電子科技大學(xué)
[2]基于密度的分類聚類算法DBSCAN.https://blog.csdn.net/google19890102/article/details/37656733
[3]LIDC-IDRI數(shù)據(jù)集以及說(shuō)明.https://wiki.cancerimagingar chive.net