• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度學(xué)習(xí)模型在超聲影像特征診斷乳腺病變性質(zhì)中的應(yīng)用*

    2021-10-09 08:20:40歐陽(yáng)濤
    關(guān)鍵詞:淺層建模深度

    譚 垚 霍 苓 歐陽(yáng)濤△ 姚 晨△

    【提 要】 目的 探究并比較深度神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)學(xué)習(xí)淺層模型在基于超聲影像特征診斷乳腺病變性質(zhì)的應(yīng)用價(jià)值。方法 將建模數(shù)據(jù)集以75%:25%比例拆分為訓(xùn)練集和測(cè)試集,同時(shí)構(gòu)建6種淺層學(xué)習(xí)模型和深度神經(jīng)網(wǎng)絡(luò)模型,比較其在測(cè)試集和驗(yàn)證集的性能,以ROC曲線(xiàn)下面積(AUC)作為模型主要評(píng)估指標(biāo)。結(jié)果 在淺層學(xué)習(xí)模型中,logistic回歸的AUC最大,除多層感知器外,其他差異均有統(tǒng)計(jì)學(xué)意義;深度神經(jīng)網(wǎng)絡(luò)模型的ROC曲線(xiàn)下面積(AUC)高于logistic回歸,差異具有統(tǒng)計(jì)學(xué)意義。結(jié)論 深度神經(jīng)網(wǎng)絡(luò)模型相比于傳統(tǒng)淺層學(xué)習(xí)模型在基于超聲影像特征診斷乳腺病變性質(zhì)中有更大的診斷價(jià)值,但需要進(jìn)一步探索并優(yōu)化DNN模型,從而最終使臨床醫(yī)師能從深度學(xué)習(xí)模型的輔助診斷中獲益。

    乳腺癌是中國(guó)女性發(fā)病率最高的惡性腫瘤,嚴(yán)重危害女性的身心健康[1]。對(duì)乳腺癌疾病進(jìn)行有效的篩查可以早期發(fā)現(xiàn)疾病,降低疾病死亡率。目前用于乳腺癌篩查的主要方法是基于常規(guī)超聲設(shè)備的乳腺超聲檢查,但醫(yī)生尤其是基層醫(yī)生的操作水平有限和經(jīng)驗(yàn)不足嚴(yán)重影響篩查的效果,如何進(jìn)一步提高篩查能力是研究者的共同目標(biāo)。因此基于大樣本超聲影像特征建立診斷乳腺病變性質(zhì)的模型可以有效輔助基層醫(yī)生提高篩查能力,從而做出更及時(shí)、更準(zhǔn)確的診斷。

    目前國(guó)內(nèi)外針對(duì)于乳腺癌超聲影像建立模型的研究多數(shù)采用淺層學(xué)習(xí)模型,本文利用深度學(xué)習(xí)進(jìn)行進(jìn)一步探索。深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的研究,通過(guò)模擬人腦神經(jīng)元將數(shù)據(jù)從低層傳遞到高層,最終解釋數(shù)據(jù)和信息的一種機(jī)械學(xué)習(xí)技術(shù)[2]。深度學(xué)習(xí)目前在醫(yī)學(xué)影像領(lǐng)域上取得較大的成功,因其構(gòu)架具有靈活性、特征提取能力強(qiáng)、性能潛力大和可擴(kuò)展性強(qiáng)等優(yōu)勢(shì),通常優(yōu)于淺層機(jī)器學(xué)習(xí)方法,并且可以在很少或沒(méi)有預(yù)處理的情況下從原始數(shù)據(jù)中自動(dòng)提取特征[3],從而輔助醫(yī)生提高診斷效能[4]。

    本研究將利用logistic回歸(LR)、隨機(jī)森林(random forest,RF)、極端隨機(jī)樹(shù)(extra trees)、多層感知器(multilayer perceptron,MLP)、支持向量機(jī)(support vector,SVC)和極端梯度提升(XGBoost)六種淺層學(xué)習(xí)模型和深度神經(jīng)網(wǎng)絡(luò)模型(deep neural network,DNN)分別基于超聲影像特征診斷乳腺病變性質(zhì)建立相關(guān)模型,比較兩類(lèi)模型的預(yù)測(cè)能力。

    資料與方法

    1.資料來(lái)源

    本研究基于前期研究數(shù)據(jù)[14],建模數(shù)據(jù)集為北京腫瘤醫(yī)院2010年11月至2016年5月收集的具有全自動(dòng)超聲影像檢查資料、病灶超聲影像最大徑2cm以下且有組織病理學(xué)確診的1345例病例,經(jīng)過(guò)北京人民醫(yī)院醫(yī)生再次讀取影像特征數(shù)據(jù),最后納入兩醫(yī)院復(fù)判一致的建模數(shù)據(jù)為1125例,其中惡性腫瘤為732例(占65.07%)。將建模數(shù)據(jù)集劃分為75%訓(xùn)練樣本(training set)和25%測(cè)試樣本(test set),訓(xùn)練樣本用于模型構(gòu)建,測(cè)試樣本進(jìn)行模型測(cè)試。

    外部驗(yàn)證數(shù)據(jù)集(external validation set)為北京腫瘤醫(yī)院、北京人民醫(yī)院、河北醫(yī)科大學(xué)第四醫(yī)院、北京市順義區(qū)婦幼保健院和北京市海淀區(qū)婦幼保健院5個(gè)中心2017年8月到2019年12月收集的全自動(dòng)超聲影像檢查資料,并且有活檢病例病理結(jié)果(1094例)或隨訪(fǎng)病例隨訪(fǎng)結(jié)果(890例)共計(jì)1981例,經(jīng)過(guò)數(shù)據(jù)清理最后納入1965例。用包括基層醫(yī)院在內(nèi)收集的1965例臨床數(shù)據(jù)作為外部驗(yàn)證數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證。

    模型結(jié)局指標(biāo)是具有病理活檢分型的活檢病例或隨訪(fǎng)結(jié)果有疾病分型的隨訪(fǎng)病例的診斷結(jié)果(良性或惡性)。自變量是根據(jù)超聲影像特征性術(shù)語(yǔ),在前期研究中確定納入模型的相關(guān)變量,變量編碼如表1。

    表1 變量賦值情況

    2.研究方法

    (1)淺層學(xué)習(xí)模型

    將變量選擇、獨(dú)熱編碼和基本模型組裝成pipeline(管道或流水線(xiàn)),將pipeline放入網(wǎng)格搜索,設(shè)置10折交叉驗(yàn)證,進(jìn)行超參數(shù)的搜索以調(diào)優(yōu),輸出最優(yōu)模型。為了防止模型過(guò)擬合,對(duì)模型進(jìn)一步校準(zhǔn),使用校準(zhǔn)后的模型對(duì)測(cè)試集和外部驗(yàn)證集進(jìn)行預(yù)測(cè),并輸出預(yù)測(cè)性能指標(biāo)。將上述全部流程定義為一個(gè)函數(shù)模塊以供重復(fù)調(diào)用。輸入所有自變量,對(duì)每個(gè)模型分別定義參數(shù)搜索范圍,調(diào)用上述函數(shù)并執(zhí)行結(jié)果。

    交叉驗(yàn)證是防止過(guò)度擬合的有力預(yù)防措施。在標(biāo)準(zhǔn)的k倍交叉驗(yàn)證中,我們將數(shù)據(jù)劃分為k個(gè)子集,稱(chēng)為folds(折)。然后,我們將(k-1)倍的迭代算法迭代訓(xùn)練,同時(shí)將其余倍數(shù)用作測(cè)試集(稱(chēng)為“holdout fold”,即“留出來(lái)一部分”)。交叉驗(yàn)證使模型可以?xún)H使用原始訓(xùn)練集來(lái)調(diào)整超參數(shù)。這樣,就可以將測(cè)試集保留為一個(gè)真正看不見(jiàn)的數(shù)據(jù)集,以選擇最終模型。對(duì)于具備正則化超參數(shù)的模型,我們對(duì)logistic回歸模型使用正則化,決策樹(shù)類(lèi)型的random forest、extra trees進(jìn)行了剪枝,support vector和multilayer perceptron選用具有懲罰功能的超參數(shù),XGBoost使用了控制模型復(fù)雜性的參數(shù)。

    機(jī)器學(xué)習(xí)所用軟件為Python。淺層學(xué)習(xí)模型構(gòu)建所使用的庫(kù)為“sklearn”庫(kù)。

    (2)深度學(xué)習(xí)模型

    構(gòu)建DNN模型,并以logistic回歸模型作為基線(xiàn)進(jìn)行比較。DNN模型所用的3個(gè)數(shù)據(jù)集(訓(xùn)練集,測(cè)試集和外部驗(yàn)證集)都同上述淺層學(xué)習(xí)模型,使用相同的自變量作為輸入。依次進(jìn)行獨(dú)熱編碼,模型架構(gòu)設(shè)計(jì),模型編譯,借助于網(wǎng)格搜索的超參數(shù)調(diào)整等流程確定最佳模型,最后進(jìn)行模型預(yù)測(cè),性能結(jié)果輸出。將DNN模型和logistic回歸模型在測(cè)試集和外部驗(yàn)證集的預(yù)測(cè)結(jié)果,以ROC曲線(xiàn)形式繪制到同一個(gè)圖中進(jìn)行兩者性能的對(duì)比。DNN模型使用的Python庫(kù)為:“keras”庫(kù);“keras”的后端引擎庫(kù)為“tensorflow”。

    ①DNN架構(gòu)設(shè)計(jì)

    DNN模型共包含4層的網(wǎng)絡(luò)架構(gòu),見(jiàn)圖1。Dense層使用“relu”激活函數(shù),內(nèi)核初始化器(kernel_initializer)使用“glorot_uniform”。模型編譯時(shí),使用損失函數(shù)為“binary_crossentropy”,優(yōu)化器為具有學(xué)習(xí)率為1e-4的“RMSprop”,評(píng)估指標(biāo)為準(zhǔn)確率(accuracy)。

    圖1 DNN模型架構(gòu)

    ②DNN調(diào)優(yōu)

    將DNN模型包裝在KerasClassifier類(lèi)實(shí)例中,使用sklearn模塊中的GridSearchCV類(lèi)進(jìn)行網(wǎng)格搜索超參數(shù)。最終使用的輪次(epochs,向前和向后傳播中所有批次的單次訓(xùn)練迭代),批處理(batch_size,即一次訓(xùn)練所選取的樣本數(shù))的取值分別為:epochs=100,batch_size=10。

    直到一定數(shù)量的迭代,新的迭代才能改善模型,但是此后該模型的泛化能力可能會(huì)因?yàn)檫^(guò)度擬合訓(xùn)練數(shù)據(jù)而減弱。提前停止是指當(dāng)模型通過(guò)該點(diǎn)前停止。為了防止過(guò)擬合,我們開(kāi)始時(shí)選擇相對(duì)較少的層和參數(shù),然后逐漸增加層的大小或增加新層,直到這種增加對(duì)驗(yàn)證損失的影響變得很小。根據(jù)模型的損失曲線(xiàn),選擇適合的輪次,及時(shí)終止模型的迭代。

    (3)ROC曲線(xiàn)比較

    ROC曲線(xiàn)下面積用于評(píng)估模型的區(qū)分度,以此驗(yàn)證模型的鑒別能力。將各個(gè)模型ROC曲線(xiàn)下面積作為主要的評(píng)價(jià)指標(biāo),運(yùn)用Medcal軟件,將各個(gè)模型的預(yù)測(cè)值作為檢驗(yàn)變量,金標(biāo)準(zhǔn)結(jié)果設(shè)為分類(lèi)變量,得出各個(gè)模型的ROC曲線(xiàn)下面積(AUC)并采用Z檢驗(yàn)對(duì)結(jié)果進(jìn)行兩兩比較,比較ROC曲線(xiàn)下面積有無(wú)統(tǒng)計(jì)學(xué)差異,P<0.05表示有統(tǒng)計(jì)學(xué)差異。

    結(jié) 果

    1.一般情況

    建模數(shù)據(jù)集惡性腫瘤732例(65.07%),良性腫瘤393例(34.93%);驗(yàn)證數(shù)據(jù)集中惡性腫瘤498例(25.34%),良性腫瘤1467例(74.66%),兩者經(jīng)檢驗(yàn)差異具有統(tǒng)計(jì)學(xué)意義(χ2=471.132,P<0.0001)。

    2.淺層學(xué)習(xí)模型結(jié)果

    分別用logistic回歸、random forest、extra trees、multilayer perceptron、support vector和XGBoost對(duì)測(cè)試集和驗(yàn)證集進(jìn)行分析。

    在測(cè)試集中,multilayer perceptron模型AUC最大,為0.775(95%CI:0.719~0.832);logistic回歸模型AUC為0.771(95%CI:0.715~0.826)。在驗(yàn)證集中l(wèi)ogistic回歸模型AUC最大,為0.906(95%CI:0.892~0.921)。其他模型在測(cè)試集和驗(yàn)證集的評(píng)價(jià)指標(biāo)詳見(jiàn)表2。

    表2 不同模型在測(cè)試和驗(yàn)證集的評(píng)價(jià)指標(biāo)比較

    用AUC作為模型的主要評(píng)價(jià)指標(biāo),對(duì)各個(gè)模型的AUC進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn),在驗(yàn)證集上,logistic回歸模型AUC高于其他模型,logistic回歸模型與extra trees,random forest和support vector的AUC差異具有統(tǒng)計(jì)學(xué)意義(Z值分別為5.746,4.981,8.079,P<0.0001);logistic回歸模型與XGBoost的AUC差異具有統(tǒng)計(jì)學(xué)意義(Z=2.081,P=0.0374);logistic回歸模型與multilayer perceptron的AUC差異無(wú)統(tǒng)計(jì)學(xué)意義。其他模型之間AUC比較見(jiàn)表3。

    表3 不同模型在驗(yàn)證數(shù)據(jù)集上ROC曲線(xiàn)下面積比較

    3.深度學(xué)習(xí)模型結(jié)果

    以logistic回歸作為淺層學(xué)習(xí)基線(xiàn)模型,建立DNN深度學(xué)習(xí)模型與之進(jìn)行比較。DNN模型loss(損失)曲線(xiàn)和accuracy(準(zhǔn)確率)曲線(xiàn)見(jiàn)圖2,未出現(xiàn)過(guò)擬合的現(xiàn)象。根據(jù)表1,在測(cè)試集上DNN模型各個(gè)參數(shù)表現(xiàn)都優(yōu)于淺層學(xué)習(xí)模型,其準(zhǔn)確度為0.762,AUC為0.807(95%CI:0.751~0.854)。在驗(yàn)證集中DNN模型準(zhǔn)確度為0.854,在選取的截?cái)嘀禐?.468時(shí),靈敏度為0.821,特異度為0.859,AUC為0.914(95%CI:0.900~0.929),與logistic回歸比較,兩模型AUC相差0.0121,Z統(tǒng)計(jì)量為4.707,P<0.0001,兩模型預(yù)測(cè)價(jià)值差異具有統(tǒng)計(jì)學(xué)意義,DNN模型高于logistic回歸,兩者在測(cè)試集和驗(yàn)證集的ROC曲線(xiàn)見(jiàn)圖3。

    圖2 DNN模型每輪(epoch)訓(xùn)練損失/準(zhǔn)確率和驗(yàn)證損失/準(zhǔn)確率

    圖3 logistic模型和DNN模型在測(cè)試集(左)和驗(yàn)證集(右)的ROC曲線(xiàn)

    討 論

    本研究通過(guò)建立不同的淺層學(xué)習(xí)模型和深度學(xué)習(xí)模型探究基于超聲影像特征診斷乳腺病變性質(zhì)的價(jià)值。目前國(guó)內(nèi)臨床上利用超聲影像特征建立診斷模型大部分采用logistic 回歸[5-7],建模方式較為單一。logistic回歸作為一種常見(jiàn)的模型,構(gòu)建過(guò)程簡(jiǎn)單且易于解釋?zhuān)怯捎谒鼘?duì)參數(shù)進(jìn)行線(xiàn)性結(jié)合計(jì)算,對(duì)于復(fù)雜的變量適應(yīng)程度較低[8]。本研究所有變量均為分類(lèi)變量,可以有效避免由于變量之間存在線(xiàn)性關(guān)系假設(shè)導(dǎo)致logistic 回歸建模的局限性[9]。本研究主要是基于前期研究[14]依據(jù)三種自變量篩選的方法,考慮模型的使用條件(如:共線(xiàn)性等)從最初27個(gè)自變量確定的7個(gè)模型預(yù)測(cè)自變量的進(jìn)一步驗(yàn)證研究。本研究不將重點(diǎn)放在自變量的篩選上,在基于前者研究確定的自變量上通過(guò)建立包括logistic 回歸在內(nèi)的6個(gè)淺層學(xué)習(xí)模型比較,綜合模型參數(shù)和模型操作便捷性,解釋容易性等方面,最終確定使用logistic 回歸作為淺層學(xué)習(xí)基線(xiàn)模型與深度模型比較。

    當(dāng)前基于超聲影像特征建立乳腺病變性質(zhì)診斷模型多數(shù)使用的是淺層結(jié)構(gòu)算法模型,其局限性在于有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限,針對(duì)復(fù)雜分類(lèi)問(wèn)題其泛化能力受到一定制約[10]。深度學(xué)習(xí)可通過(guò)學(xué)習(xí)一種深層非線(xiàn)性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力[11]。DNN模型是一種深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)模型,是深度學(xué)習(xí)的基礎(chǔ)[12]。其內(nèi)部的神經(jīng)網(wǎng)絡(luò)層可以分為三類(lèi),輸入層、隱藏層和輸出層,一般來(lái)說(shuō)第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。相比于淺層學(xué)習(xí)模型,DNN由于有更多的層次,對(duì)事物的建?;蛘叱橄蟊憩F(xiàn)的能力更突出,因此也更能準(zhǔn)確模擬出更復(fù)雜的模型。

    本研究構(gòu)建4層網(wǎng)絡(luò)架構(gòu)的深度學(xué)習(xí)模型,利用較少層數(shù)的DNN模型結(jié)構(gòu)處理數(shù)據(jù)結(jié)果,與傳統(tǒng)淺層學(xué)習(xí)模型相比模型得到明顯提升,具有更佳的診斷效果,尤其在準(zhǔn)確率上有較大的提升[13-14],說(shuō)明利用深度學(xué)習(xí)模型能更充分地探索人工判讀的超聲影像特征變量的診斷價(jià)值,得到預(yù)測(cè)能力更強(qiáng)的預(yù)測(cè)模型。本研究的不足之處在于DNN模型建立過(guò)程中層數(shù)無(wú)法自動(dòng)設(shè)置,需要一層一層手動(dòng)添加構(gòu)建,本研究只探究了4層網(wǎng)絡(luò)構(gòu)架的DNN模型,未必達(dá)到最優(yōu)層數(shù)的設(shè)置,需要再?lài)L試更深層數(shù)的模型建立。同時(shí),在構(gòu)建DNN模型時(shí)涉及的每層參數(shù)設(shè)置采用的是默認(rèn)參數(shù),沒(méi)有嘗試調(diào)整相關(guān)參數(shù)以獲得更優(yōu)模型。

    綜上所述,DNN模型相比于傳統(tǒng)淺層學(xué)習(xí)模型在基于超聲影像特征診斷乳腺病變性質(zhì)有更大的診斷價(jià)值,但需要進(jìn)一步探索并優(yōu)化DNN模型,從而最終使臨床醫(yī)師能從深度學(xué)習(xí)模型的輔助診斷中獲益。

    猜你喜歡
    淺層建模深度
    淺層換填技術(shù)在深厚軟土路基中的應(yīng)用
    聯(lián)想等效,拓展建模——以“帶電小球在等效場(chǎng)中做圓周運(yùn)動(dòng)”為例
    深度理解一元一次方程
    基于淺層曝氣原理的好氧顆粒污泥的快速培養(yǎng)
    深度觀(guān)察
    深度觀(guān)察
    基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
    電子制作(2018年17期)2018-09-28 01:56:44
    深度觀(guān)察
    不對(duì)稱(chēng)半橋變換器的建模與仿真
    淺層地下水超采區(qū)劃分探究
    扎赉特旗| 缙云县| 高安市| 巩留县| 同德县| 黄大仙区| 繁昌县| 竹溪县| 梁山县| 绥德县| 沙田区| 嘉义县| 广宗县| 方城县| 长泰县| 田林县| 顺平县| 大连市| 茶陵县| 二手房| 丰台区| 晋州市| 神池县| 建昌县| 赣榆县| 禹城市| 雷州市| 东乡| 嘉义市| 宜黄县| 长春市| 西乌| 安溪县| 阜宁县| 陵水| 石台县| 板桥市| 阿尔山市| 临桂县| 临沂市| 睢宁县|