關(guān)天下 傅彰凱
四川大學(xué)華西第二醫(yī)院 四川 成都 610041
在20世紀(jì)80年代末基于精子質(zhì)量計(jì)算機(jī)輔助分析技術(shù)得到了迅速發(fā)展。人們發(fā)現(xiàn)利用計(jì)算機(jī)圖像分析技術(shù)自動(dòng)測(cè)量評(píng)估精子的各項(xiàng)數(shù)據(jù)有諸多優(yōu)點(diǎn),它不僅操作簡(jiǎn)單、分析速度快、計(jì)算精度高、可重復(fù)性好、為人工授精提供準(zhǔn)確參考數(shù)據(jù)、提高了檢驗(yàn)醫(yī)生的檢驗(yàn)水平減少了他們的工作量,而且可以克服傳統(tǒng)測(cè)定方法中存在的缺點(diǎn),比如耗時(shí)、測(cè)量精度差、人為主觀性強(qiáng)等[1]?;趫D像語(yǔ)義分割的深度學(xué)習(xí)技術(shù)近年來(lái)得到了非常好的發(fā)展,本文就是在深度學(xué)習(xí)框架下提供了一種精子尾部識(shí)別方法,其優(yōu)點(diǎn)是能夠通過(guò)精子具有尾部的結(jié)構(gòu)形態(tài),過(guò)濾掉精液中的非精子細(xì)胞或雜質(zhì),清晰的呈現(xiàn)精液中的精子數(shù)量,具有良好的臨床意義。
FCN是圖像的像素級(jí)分類,來(lái)解決圖像分割的問(wèn)題。FCN是一種經(jīng)典的語(yǔ)義分割方法。和CNN在卷積層上使用全連接層得到固定長(zhǎng)度的特征向量來(lái)進(jìn)行分類不同,F(xiàn)CN可以接受任何分辨率的輸入圖像,采用反卷積層來(lái)對(duì)最后一個(gè)卷基層的特征圖來(lái)進(jìn)行上采樣操作,使得它變?yōu)楹洼斎雸D像相同的分辨率,從而可以對(duì)每一個(gè)像素進(jìn)行預(yù)測(cè),并保留了原始輸入圖像上的空間信息,最后對(duì)特征圖進(jìn)行像素級(jí)分類。
圖像經(jīng)過(guò)多個(gè)卷積和一個(gè)最大池化變?yōu)閜ool1 feature,寬高變?yōu)樵瓉?lái)的1/2;pool1 feature再經(jīng)過(guò)多個(gè)卷積和一個(gè)最大池化變?yōu)閜ool2 feature,寬高變?yōu)樵瓉?lái)的1/4;pool2 feature再經(jīng)過(guò)多個(gè)最大池化和一個(gè)最大池化變?yōu)閜ool3 feature,寬高變?yōu)樵瓉?lái)的1/8;直到pool5 feature,寬高變?yōu)樵瓉?lái)的1/32。再對(duì)pool5 feature進(jìn)行32倍的上采樣,從而獲得32x 上采樣特征,再對(duì)32x 上采樣特征每個(gè)點(diǎn)做softmax 預(yù)測(cè)獲得32x上采樣特征預(yù)測(cè),即分割圖。
FCN的優(yōu)點(diǎn)主要有模型的拓展性簡(jiǎn)單和速度快;缺點(diǎn)是語(yǔ)義分割的結(jié)果不夠精細(xì)和沒(méi)有考慮像素直接的關(guān)系缺乏空間一致性。
DeepLabV3+是Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, Hartwig Adam等人在2018年提出的。
其具體過(guò)程可以分為以下4步[2]:①將圖片A輸入到改進(jìn)后的深度卷積網(wǎng)絡(luò)B中進(jìn)行特征提取,將會(huì)得到相應(yīng)的語(yǔ)義特征C和語(yǔ)義特征G;②將語(yǔ)義特征C傳入到空洞金字塔池化模塊ASPP中,并分別和四個(gè)空洞卷積層進(jìn)行卷積和一個(gè)池化層進(jìn)行池化,從而會(huì)得到五個(gè)特征圖,并將其合并成5層結(jié)構(gòu)D。D再和一個(gè)1×1的卷積層進(jìn)行卷積后得到結(jié)構(gòu)E; E再通過(guò)上采樣得到結(jié)構(gòu)F;③通過(guò)在深度卷積網(wǎng)絡(luò)層中得到的一個(gè)與結(jié)構(gòu)F在分辨率上相同的語(yǔ)義特征圖G;經(jīng)過(guò)1×1卷積后降低通道數(shù)使得和結(jié)構(gòu)F所占通道數(shù)一樣,再與F進(jìn)行合并;④第3步中合并生成H,然后通過(guò)一個(gè)3×3卷積進(jìn)行細(xì)化操作;再通過(guò)雙線性上采樣將圖像變?yōu)樵瓉?lái)的4倍,最終得到語(yǔ)義分割的結(jié)果。將語(yǔ)義特征C傳入到空洞金字塔池化模塊ASPP中,并分別和四個(gè)空洞卷積層進(jìn)行卷積和一個(gè)池化層進(jìn)行池化,從而會(huì)得到五個(gè)特征圖,并將其合并成5層結(jié)構(gòu)D。D再和一個(gè)1×1的卷積層進(jìn)行卷積后得到結(jié)構(gòu)E;E再通過(guò)上采樣得到結(jié)構(gòu)F;
Ross B. Girshick在2016年提出了新的Faster RCNN,
Faster R-CNN的訓(xùn)練,是在已經(jīng)訓(xùn)練好的model(如VGG_CNN_M_1024,VGG,ZF)的基礎(chǔ)上繼續(xù)進(jìn)行訓(xùn)練。實(shí)際中訓(xùn)練過(guò)程分為6個(gè)步驟:
在已經(jīng)訓(xùn)練好的model上,訓(xùn)練RPN網(wǎng)絡(luò),對(duì)應(yīng)stage1_rpn_train.pt;
利用步驟1中訓(xùn)練好的RPN網(wǎng)絡(luò),收集proposals,對(duì)應(yīng)rpn_test.pt;
第一次訓(xùn)練Fast RCNN網(wǎng)絡(luò),對(duì)應(yīng)stage1_fast_rcnn_train.pt;
第二訓(xùn)練RPN網(wǎng)絡(luò),對(duì)應(yīng)stage2_rpn_train.pt;
再次利用步驟4中訓(xùn)練好的RPN網(wǎng)絡(luò),收集proposals,對(duì)應(yīng)rpn_test.pt;
第二次訓(xùn)練Fast_RCNN網(wǎng)絡(luò),對(duì)應(yīng)stage2_fast_rcnn_train.pt。
DeepLabV3+是對(duì)物體進(jìn)行語(yǔ)義分割。其具體過(guò)程可分為3步[3]:①通過(guò)標(biāo)注軟件Labelme對(duì)精子尾部進(jìn)行人工標(biāo)注;②通過(guò)標(biāo)注好的數(shù)據(jù),將其處理為.tfrecord格式文件,在TensorFlow框架下進(jìn)行訓(xùn)練;③通過(guò)調(diào)用訓(xùn)練得到的模型來(lái)對(duì)精子尾部進(jìn)行分割。其中步湊2中進(jìn)行訓(xùn)練時(shí),要將訓(xùn)練的類別改為1類,訓(xùn)練的網(wǎng)絡(luò)模型為xception_65,訓(xùn)練時(shí)圖片的大小要設(shè)置為513×513,迭代次數(shù)設(shè)置為100000次,以保證訓(xùn)練足夠充分,初始學(xué)習(xí)率為0.0001。修改好參數(shù)后,運(yùn)行訓(xùn)練命令,進(jìn)行訓(xùn)練,等待最終模型生成。
Deeplabv3+和fcn進(jìn)行語(yǔ)義分割結(jié)果如下:
圖1 經(jīng)典算法實(shí)驗(yàn)對(duì)比圖
其中第一列為原圖,第二列為Deeplabv3+語(yǔ)義分割圖,第三列為fcn語(yǔ)義分割圖,第四列為ground truth。從上圖可以看出,Deeplabv3+語(yǔ)義分割效果優(yōu)于fcn的語(yǔ)義分割效果。
我們這里通過(guò)對(duì)Deeplabv3+和fcn語(yǔ)義分割的圖像分別求得軌跡點(diǎn),并對(duì)應(yīng)到標(biāo)注的圖像中,統(tǒng)計(jì)在標(biāo)記區(qū)域內(nèi)軌跡點(diǎn)個(gè)數(shù)分別為num1和num2,并對(duì)標(biāo)記的圖像進(jìn)行求軌跡點(diǎn),記錄軌跡點(diǎn)個(gè)數(shù)為num3,從而可以計(jì)算出Deeplabv3+和fcn語(yǔ)義分割圖像對(duì)應(yīng)原始標(biāo)記圖像中軌跡點(diǎn)的百分比。其中第一列圖像中標(biāo)記圖像求得軌跡點(diǎn)個(gè)數(shù)為1356,Deeplabv3+語(yǔ)義分割圖像求得軌跡點(diǎn)個(gè)數(shù)為1195,則百分比為88.13%,fcn語(yǔ)義分割圖求得軌跡點(diǎn)為365,百分比為26.92%;第二列圖像中標(biāo)記圖像求得軌跡點(diǎn)個(gè)數(shù)為520,Deeplabv3+語(yǔ)義分割圖像求得軌跡點(diǎn)個(gè)數(shù)為510,則百分比為98.08%,fcn語(yǔ)義分割圖求得軌跡點(diǎn)為122,百分比為23.08%;第三列圖像中標(biāo)記圖像求得軌跡點(diǎn)個(gè)數(shù)為1068,Deeplabv3+語(yǔ)義分割圖像求得軌跡點(diǎn)個(gè)數(shù)為933,則百分比為87.36%,fcn語(yǔ)義分割圖求得軌跡點(diǎn)為532,百分比為49.81%。從而可以看出,通過(guò)deeplabv3+來(lái)對(duì)精子尾部進(jìn)行語(yǔ)義分割比FCN進(jìn)行語(yǔ)義分割來(lái)識(shí)別精子尾部效果明顯更精準(zhǔn)。