周 艷 葉 磊 潘婷婷 張 清 桑彩影 李靜怡 于阿麗 孫明睿 謝玉海
在女性中,乳腺癌的發(fā)病率和死亡率均最高,早期診斷和早期治療是提高乳腺癌生存率及生存質(zhì)量的最佳途徑[1-2]。目前,超聲是臨床上最常用的篩查方法,但其對(duì)乳腺癌診斷的靈敏度和特異度較低[3-5],且受到醫(yī)師的診斷水平影響較大。影像組學(xué)(Radiomics)于2012年由Lambin等[6]首次提出,2016年被Radiology正式命名,作為一種新興的前沿科學(xué)領(lǐng)域,目前已成為研究的熱點(diǎn)。影像組學(xué)是通過(guò)高通量的特征提取,利用大規(guī)模的訓(xùn)練隊(duì)列來(lái)闡明圖像特征與疾病狀態(tài)之間的相關(guān)性,從而為臨床診斷提供重要信息。本研究基于乳腺腫瘤灰階超聲的影像組學(xué)特征,采用5種方法構(gòu)建模型,旨在探討各模型間的表現(xiàn)能力及最優(yōu)模型預(yù)測(cè)乳腺腫塊良惡性的臨床價(jià)值。
1.1 一般資料 回顧性分析2018年10月至2020年10月皖南醫(yī)學(xué)院附屬太和縣人民醫(yī)院行乳腺超聲檢查的180位女性患者資料,年齡27~83歲,平均(54.41±13.00)歲;每位患者均有1個(gè)乳腺腫塊納入研究,共180個(gè)乳腺腫塊。納入標(biāo)準(zhǔn):①有完整的臨床及超聲影像資料;②超聲檢查前未行任何臨床治療。排除標(biāo)準(zhǔn):①無(wú)病理結(jié)果;②超聲圖像不佳,影響興趣區(qū)(region of interest,ROI)勾畫(huà);③超聲檢查與手術(shù)間隔時(shí)間超過(guò)14 d者。
1.2 圖像采集 采用三星麥迪遜RS80A超聲診斷儀,配備L3-12A線陣探頭,頻率5~12 MHz。由具有豐富乳腺超聲診斷經(jīng)驗(yàn)的醫(yī)師采集圖像,每幅圖像包含腫瘤的最大橫切面和縱切面,導(dǎo)出原始圖像(DICOM格式),用于特征提取。
1.3 圖像分割、預(yù)處理和特征提取 由一名高年資主治醫(yī)師(醫(yī)師1)和一名副主任醫(yī)師(醫(yī)師2)在不知病理結(jié)果的情況下,分別使用3D Slicer 4.10.2軟件手動(dòng)完成腫塊ROI的勾畫(huà)并進(jìn)行特征提取。見(jiàn)圖1。從形態(tài)、直方圖、紋理和小波4個(gè)方面共提取851個(gè)乳腺腫塊的高通量特征。見(jiàn)表1。為了保證結(jié)果的可重復(fù)性,通過(guò)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化算法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。
圖1 乳腺腫塊ROI勾畫(huà)示意圖
表1 影像組學(xué)特征名稱及數(shù)量
1.4 特征一致性檢驗(yàn) 醫(yī)師1進(jìn)行2次ROI勾畫(huà)及特征提取,間隔時(shí)間為2周。醫(yī)師2進(jìn)行1次ROI勾畫(huà)及特征提取。采用組內(nèi)和組間相關(guān)系數(shù)(inter and intra correlation coefficient of groups,ICC)評(píng)價(jià)測(cè)量者自身和測(cè)量者之間的一致性。測(cè)量者自身的ICC評(píng)價(jià)使用醫(yī)師1前后2次的測(cè)量結(jié)果進(jìn)行分析,測(cè)量者之間的ICC使用醫(yī)師1和醫(yī)師2的測(cè)量結(jié)果進(jìn)行分析;ICC>0.75認(rèn)為一致性較好[7]。本研究最終采用醫(yī)師2提取的影像組學(xué)特征參數(shù)進(jìn)行降維建模。
1.5 特征降維和建模 在180個(gè)樣本中按照7∶3比例隨機(jī)抽樣分成訓(xùn)練組(n=126)和驗(yàn)證組(n=54)。降維在訓(xùn)練組上進(jìn)行,分兩步,第一步采用單因素方差分析進(jìn)行降維,對(duì)符合正態(tài)分布的參數(shù)行t檢驗(yàn),非正態(tài)分布的參數(shù)行秩和檢驗(yàn)。第二步采用最小絕對(duì)收縮和選擇算子(least absolute shrinkage and selection operato,LASSO)篩選最優(yōu)特征用于模型構(gòu)建。
1.6 統(tǒng)計(jì)學(xué)方法 采用R軟件(Version 3.6.1)進(jìn)行統(tǒng)計(jì)學(xué)分析,使用軟件包有psych、pROC、glmnet、rpart、rpart.plot、random forest、e1071、adabag。以病理結(jié)果為金標(biāo)準(zhǔn),P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1 臨床資料分析 180例乳腺腫塊中100例為惡性,均為浸潤(rùn)性乳腺癌;80例為良性,均為纖維腺瘤,其中32例合并有乳腺腺病。訓(xùn)練組126例乳腺腫塊中惡性70例、良性56例,驗(yàn)證組54例乳腺腫塊中惡性30例、良性24例。訓(xùn)練組與驗(yàn)證組中,浸潤(rùn)性乳腺癌與乳腺纖維腺瘤患者的年齡差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。
2.2 一致性檢驗(yàn) 測(cè)量者自身(見(jiàn)圖2A)和測(cè)量者之間(見(jiàn)圖2B)均具有較高的一致性(P>0.05)。通過(guò)一致性檢驗(yàn)ICC=0.75剔除其中27個(gè)特征后,剩余824個(gè)特征用于進(jìn)一步分析。
注:A為觀察者內(nèi)一致性比較;B為觀察者間的一致性比較。
2.3 特征降維 通過(guò)單因素方差分析及最小絕對(duì)收縮和選擇算子(Lasso)進(jìn)行降維,從824個(gè)影像組學(xué)特征選取8個(gè)系數(shù)非零的影像組學(xué)特征。見(jiàn)表2、圖3。
2.4 影像組學(xué)模型鑒別價(jià)值 通過(guò)兩步降維將篩選出的8個(gè)最優(yōu)特征與其對(duì)應(yīng)的加權(quán)系數(shù)乘積構(gòu)成線性組合形成預(yù)測(cè)患者良惡性模型標(biāo)簽,運(yùn)用邏輯回歸、決策樹(shù)、隨機(jī)森林、支持向量機(jī)和集成算法進(jìn)行模型建立,結(jié)果見(jiàn)表3。在訓(xùn)練組,隨機(jī)森林和支持向量機(jī)模型的表現(xiàn)能力略高于決策樹(shù)和邏輯回歸,集成算法最差,但在驗(yàn)證組,隨機(jī)森林和邏輯回歸模型的表現(xiàn)能力最強(qiáng),而在驗(yàn)證組鑒別乳腺腫塊良惡性的準(zhǔn)確性、靈敏度、特異度、陽(yáng)性預(yù)測(cè)值和陰性預(yù)測(cè)值以邏輯回歸模型最佳,其值分別為83.33%、91.70%、83.33%、85.71%、81.82%。見(jiàn)圖4。
表2 系數(shù)非零的影像組學(xué)特征
注:A為使用10倍交叉驗(yàn)證法篩選特征的特征系數(shù)收斂圖;B為使用10倍交叉驗(yàn)證法調(diào)節(jié)參數(shù)λ繪制。左邊和右邊的虛線分別表示最小準(zhǔn)則和1-標(biāo)準(zhǔn)誤差準(zhǔn)則,本研究選擇標(biāo)準(zhǔn)為1-標(biāo)準(zhǔn)誤差準(zhǔn)則,共選出8個(gè)最優(yōu)特征特征。
表3 5種模型的表現(xiàn)能力
注:邏輯回歸模型訓(xùn)練組(A)和驗(yàn)證組(B)的ROC曲線;決策樹(shù)模型訓(xùn)練組(C)和驗(yàn)證組(D)的ROC曲線;隨機(jī)森林模型訓(xùn)練組(E)和驗(yàn)證組(F)的ROC曲線;支持向量機(jī)模型訓(xùn)練組(G)和驗(yàn)證組(H)的ROC曲線;集成算法模型訓(xùn)練組(I)和驗(yàn)證組(J)的ROC曲線。
常規(guī)超聲檢查作為一種便捷、無(wú)創(chuàng)又經(jīng)濟(jì)的影像檢查技術(shù)廣泛應(yīng)用于乳腺腫瘤的篩查及隨訪,但對(duì)乳腺腫塊良惡性的鑒別缺乏特異性,且受到操作者主觀性影響較大。影像組學(xué)是一種通過(guò)自動(dòng)化的高通量的特征提取,利用大規(guī)模的訓(xùn)練組來(lái)闡明圖像特征與疾病狀態(tài)之間的細(xì)微關(guān)系,從而鑒別患者乳腺腫塊良惡性[8]。近年來(lái),影像組學(xué)在臨床中的應(yīng)用研究越來(lái)越多,主要是用于腫瘤良惡性的判斷[9-12]、病理分級(jí)[13]、新輔助放化療療效的評(píng)價(jià)[14-15]以及預(yù)測(cè)淋巴結(jié)的轉(zhuǎn)移[16-17]等。
目前,影像組學(xué)建模的常用方法有邏輯回歸、K-近鄰、支持向量機(jī)、隨機(jī)森林、決策樹(shù)、集成算法和人工神經(jīng)網(wǎng)絡(luò)[18]。本研究通過(guò)對(duì)選取8個(gè)系數(shù)非零的影像組學(xué)特征分別運(yùn)用了邏輯回歸、決策樹(shù)、隨機(jī)森林、支持向量機(jī)和集成算法建模,結(jié)果表明邏輯回歸模型的表現(xiàn)能力最強(qiáng),尤其是對(duì)驗(yàn)證組的預(yù)測(cè)能力高于其它4種模型,其預(yù)測(cè)乳腺腫塊良惡性的曲線下面積(area under the curve of ROC,AUC)、準(zhǔn)確性、靈敏度、特異度、陽(yáng)性預(yù)測(cè)值和陰性預(yù)測(cè)值在訓(xùn)練組和驗(yàn)證組分別為0.949、87.30%、82.14%、94.30%、93.48%、83.75%和0.879、83.33%、91.70%、83.33%、85.71%、81.82%,在兩組間均具有較高的診斷效能,這與既往研究[19-21]結(jié)果相一致。集成算法模型的表現(xiàn)能力最差,決策樹(shù)、隨機(jī)森林和支持向量機(jī)模型在訓(xùn)練組和驗(yàn)證組的表現(xiàn)能力差異較大,說(shuō)明這3種模型存在過(guò)擬合現(xiàn)象。
劉麗等[22]研究表明,常規(guī)超聲檢查對(duì)乳腺腫塊良惡性判斷的準(zhǔn)確性、靈敏度、特異度分別為79.17%、81.48%、64.81%。張春菊等[23]使用超聲彈性成像對(duì)乳腺良惡性腫塊鑒別的準(zhǔn)確性、靈敏度、特異度分別為77.94%、79.49%、75.86%。陳爽等[24]研究表明,超聲造影、彈性成像診斷乳腺癌的準(zhǔn)確性、靈敏度、特異度分別為74.60%、73.53%、75.86%和71.43%、70.58%、72.41%。本研究結(jié)果表明,邏輯回歸模型標(biāo)簽預(yù)測(cè)乳腺癌的準(zhǔn)確性、靈敏度、特異度、陽(yáng)性預(yù)測(cè)值和陰性預(yù)測(cè)值在訓(xùn)練組和驗(yàn)證組分別為87.30%、82.14%、94.30%、93.48%、83.75%和83.33%、91.70%、83.33%、85.71%、81.82%,均優(yōu)于常規(guī)超聲、超聲彈性成像和超聲造影。本研究最終選取的8個(gè)系數(shù)非零的影像組學(xué)特征全部為紋理特征和小波特征,提示二維灰階超聲圖像的紋理特征和小波特征可反映腫塊的異質(zhì)性。
本研究創(chuàng)新點(diǎn)在于對(duì)基于灰階超聲影像組學(xué)特征的5種預(yù)測(cè)模型進(jìn)行了比較,但不足之處有樣本量較少且為單中心研究,因此,后期需要增大樣本量并進(jìn)行多中心研究,以進(jìn)一步驗(yàn)證和提升影像組學(xué)模型的預(yù)測(cè)能力。
綜上,在基于常規(guī)二維灰階超聲的影像組學(xué)模型中,邏輯回歸模型表現(xiàn)能力最強(qiáng),能有效預(yù)測(cè)乳腺腫塊良惡性。