崔雅靜,范 明,厲力華
(杭州電子科技大學(xué)自動(dòng)化學(xué)院,浙江 杭州 310018)
世界衛(wèi)生組織2020年全球癌癥報(bào)告顯示,近年來(lái)乳腺癌已成為女性健康的首要威脅[1]。乳腺腫瘤具有高度異質(zhì)性,致使患者接受治療后的結(jié)果截然不同[2]。這種差異體現(xiàn)在腫瘤復(fù)發(fā)、化療效果及術(shù)后生存狀況等方面。準(zhǔn)確的術(shù)前病情評(píng)估、有效的治療效果預(yù)測(cè)、個(gè)體化的治療方案制定是提高乳腺癌治愈率的關(guān)鍵。臨床上,乳腺癌患者手術(shù)后,通常借助輔助化療手段來(lái)清除微小病灶,降低腫瘤復(fù)發(fā)風(fēng)險(xiǎn)。但不是所有患者在經(jīng)歷化療后都能從中獲益[3]。隨著基因檢測(cè)技術(shù)的快速發(fā)展,涌現(xiàn)出多種可預(yù)測(cè)乳腺癌復(fù)發(fā)風(fēng)險(xiǎn)的方法,其中21基因檢測(cè)技術(shù)最為成熟,得到專家的普遍認(rèn)可,在美國(guó)臨床腫瘤學(xué)會(huì)和國(guó)立綜合癌癥網(wǎng)絡(luò)發(fā)布的臨床指南中均有推薦[4-5]。大量實(shí)驗(yàn)數(shù)據(jù)表明,21基因檢測(cè)對(duì)雌激素受體(Estrogen Receptor, ER)陽(yáng)性、淋巴結(jié)轉(zhuǎn)移陰性的早期乳腺癌的復(fù)發(fā)風(fēng)險(xiǎn)以及化療獲益情況具有較好的預(yù)測(cè)作用[6-7]。21基因檢測(cè)依據(jù)腫瘤標(biāo)本中16個(gè)乳腺相關(guān)基因和5個(gè)參考基因的表達(dá)情況,計(jì)算復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分,提示患者術(shù)后癌癥復(fù)發(fā)的危險(xiǎn)程度[8]。通過(guò)21基因檢測(cè),醫(yī)生可以進(jìn)一步了解腫瘤情況,在評(píng)估患者的復(fù)發(fā)情況、化療獲益情況、治療方案的制定及后期的癌癥個(gè)案管理計(jì)劃中起到很好的指導(dǎo)作用。盡管有很高的應(yīng)用價(jià)值,但檢測(cè)費(fèi)用高、侵入性檢查等原因,導(dǎo)致該技術(shù)的臨床應(yīng)用十分有限。
動(dòng)態(tài)增強(qiáng)磁共振成像(Dynamic Contrast Enhanced Magnetic Resonance Imaging, DCE-MRI)技術(shù)是應(yīng)用廣泛的乳腺癌篩查診斷方法,掃描得到的影像既可顯示病變區(qū)域的形態(tài)學(xué)特征[9],又能描述造影劑流入和流出腫瘤的動(dòng)力學(xué)過(guò)程,間接反映腫瘤內(nèi)不同部位的血流特性[10]。影像組學(xué)方法通過(guò)計(jì)算機(jī)提取影像參數(shù),可以更精確和客觀地描述目標(biāo)區(qū)域的特性,彌補(bǔ)了臨床醫(yī)師分析影像的主觀性。從常規(guī)的、易收集的臨床檢查資料中尋找標(biāo)志物預(yù)測(cè)21基因檢測(cè)結(jié)果具有重要意義。目前已有研究對(duì)乳腺癌影像組學(xué)與21基因檢測(cè)結(jié)果的關(guān)聯(lián)進(jìn)行了探索[11-12]。但被證明與復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分(Recurrence Score,RS)存在相關(guān)性的影像特征相對(duì)較少,且建立的模型預(yù)測(cè)性能有限[13-15]。本文主要研究基于DCE-MRI的影像組學(xué)特征聯(lián)合臨床病理信息對(duì)乳腺癌21基因檢測(cè)RS的預(yù)測(cè)作用。為了發(fā)掘更多有預(yù)測(cè)價(jià)值的影像參數(shù),從空間、時(shí)間、種類等多角度擴(kuò)大特征計(jì)算范圍,并將臨床病理資料納入研究,與影像數(shù)據(jù)一起分析,通過(guò)建立線性回歸模型預(yù)測(cè)乳腺癌21基因檢測(cè)結(jié)果。
本文所用的實(shí)驗(yàn)數(shù)據(jù)來(lái)自復(fù)旦大學(xué)附屬腫瘤醫(yī)院。篩選標(biāo)準(zhǔn)如下:(1)在乳房切除手術(shù)或腫瘤切除手術(shù)之后進(jìn)行了21基因檢測(cè);(2)在乳腺癌手術(shù)或者化療之前進(jìn)行了DCE-MRI檢查;(3)ER陽(yáng)性且未出現(xiàn)淋巴結(jié)轉(zhuǎn)移。經(jīng)過(guò)篩選,共有130例患者符合研究條件。隨機(jī)劃分訓(xùn)練集和測(cè)試集,并用方差分析和卡方檢驗(yàn)對(duì)訓(xùn)練集和測(cè)試集的孕激素受體(Progesterone Receptor,PR),Ki-67,RS及年齡進(jìn)行了顯著性分析,P值大于0.05,說(shuō)明這些信息在2個(gè)集合中的分布無(wú)顯著差異。數(shù)據(jù)集的臨床病理信息統(tǒng)計(jì)情況如表1所示。
表1 患者臨床病理信息統(tǒng)計(jì)
實(shí)驗(yàn)影像數(shù)據(jù)均由美國(guó)奧羅瑞(Aurora)1.5T MRI設(shè)備掃描得到?;颊咴谶M(jìn)行個(gè)體MRI檢查時(shí),采取俯臥方式將身體置于檢查床上,雙乳自然下垂至射頻線圈工作范圍內(nèi),啟動(dòng)影像設(shè)備進(jìn)行掃描。得到的雙側(cè)乳房DCE-MRI由高分辨率、脂肪抑制、T1加權(quán)的三維梯度回波序列組成,包括1個(gè)蒙片序列(S0)和3個(gè)增強(qiáng)序列(S1,S2,S3)。蒙片序列在注射造影劑之前采集,增強(qiáng)序列在注射造影劑之后采集。每個(gè)序列由108張切片組成,序列之間的掃描時(shí)間間隔約為2 min。具體成像參數(shù)如下:采集矩陣為512×512,切片厚度為1.48 mm,視野(Field Of View, FOV)為360 mm×360 mm,重復(fù)時(shí)間(Time of Repetition, TR)為29 ms,回波時(shí)間(Time of Echo, TE)為4.8 ms,翻轉(zhuǎn)角(Flip Angle, FA)為90°。
實(shí)驗(yàn)主要是對(duì)腫瘤部位的影像特征進(jìn)行分析。因此在計(jì)算特征之前,先對(duì)DCE-MRI的腫瘤部位進(jìn)行分割。DCE-MRI成像過(guò)程中,受檢者人體組織中水質(zhì)子的弛豫率和成像時(shí)間[16]在注入造影劑之后被改變,反映在影像中即為腫瘤區(qū)域和正常組織之間的信號(hào)對(duì)比度增強(qiáng)。與注入造影劑之前相比,病變位置明顯亮于其他區(qū)域,因此可利用這種灰度差異進(jìn)行腫瘤分割。首先,明確乳腺腫瘤的位置,由臨床放射科醫(yī)生在影像中進(jìn)行標(biāo)注;然后,參考標(biāo)記的病灶位置以及患者的臨床就診報(bào)告,在影像序列中找到腫瘤的起止層,并在腫瘤最大截面切片中勾畫腫瘤輪廓;最后,運(yùn)用參數(shù)自適應(yīng)的空間模糊C均值算法得到病灶區(qū)域的粗邊緣,并結(jié)合三維影像信息使用馬爾可夫隨機(jī)場(chǎng)算法對(duì)粗邊緣進(jìn)行調(diào)整,實(shí)現(xiàn)病灶區(qū)域的精細(xì)分割[17]。在一個(gè)序列中按照上述流程分割病灶,然后以此為模板點(diǎn)乘其他序列,最終得到患者的所有影像序列的病灶。
為了探索影像組學(xué)和臨床病理信息與RS之間的關(guān)聯(lián),尋找對(duì)乳腺癌復(fù)發(fā)風(fēng)險(xiǎn)有預(yù)測(cè)價(jià)值的特征,分別對(duì)基于DCE-MRI提取的影像特征和臨床病理信息進(jìn)行單變量和多變量預(yù)測(cè)分析。
1.5.1 特征選擇
通過(guò)計(jì)算提取各個(gè)序列的影像特征,這些特征顯示了病灶區(qū)域的不同信息。本實(shí)驗(yàn)中,提取的特征數(shù)量眾多,有利于發(fā)現(xiàn)更多有預(yù)測(cè)價(jià)值的影像參數(shù)。但高維的特征直接用于訓(xùn)練模型時(shí),易導(dǎo)致過(guò)擬合,不僅影響預(yù)測(cè)模型的魯棒性,還會(huì)加大計(jì)算開(kāi)銷??紤]到特征之間可能存在相關(guān)性、重復(fù)性,在建立模型之前先進(jìn)行特征選擇。首先,對(duì)所有特征進(jìn)行正態(tài)性檢驗(yàn),去除掉明顯偏離正態(tài)分布的特征(P<0.05);然后,采用過(guò)濾式特征選擇方法進(jìn)行特征篩選,本文采用的評(píng)價(jià)指標(biāo)為皮爾遜相關(guān)系數(shù),以0.7為篩選閾值,去掉高度相似的特征。特征選擇剔除了大量的冗余特征,避免在預(yù)測(cè)模型中出現(xiàn)多重共線性效應(yīng)。
1.5.2 單變量預(yù)測(cè)分析
為了評(píng)估單個(gè)影像特征和臨床病理信息對(duì)乳腺癌復(fù)發(fā)風(fēng)險(xiǎn)的預(yù)測(cè)性能,對(duì)影像特征和臨床病理信息進(jìn)行單變量線性回歸分析。本實(shí)驗(yàn)選用確定系數(shù)(Rsquare,R2)作為模型的評(píng)價(jià)指標(biāo)。R2是線性模型擬合優(yōu)度的度量,范圍在0~1之間。計(jì)算結(jié)果為0時(shí),表明模型的預(yù)測(cè)結(jié)果近似于隨機(jī)猜測(cè),計(jì)算結(jié)果越趨近1,表明模型的擬合能力越好。
1.5.3 多變量預(yù)測(cè)模型建立
為了進(jìn)一步探究動(dòng)態(tài)增強(qiáng)影像組學(xué)參數(shù)和臨床病理信息在預(yù)測(cè)21基因檢測(cè)結(jié)果時(shí)的共同作用,對(duì)復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分進(jìn)行多變量預(yù)測(cè)分析。在多元線性回歸分析中,當(dāng)參與訓(xùn)練的數(shù)據(jù)集比較小或模型訓(xùn)練過(guò)度時(shí),容易產(chǎn)生過(guò)擬合問(wèn)題。引入正則項(xiàng)是常用的解決方法之一。通過(guò)在訓(xùn)練誤差最小化優(yōu)化模型的基礎(chǔ)上添加約束條件,即正則項(xiàng),使得訓(xùn)練誤差與模型復(fù)雜度達(dá)到一個(gè)平衡,實(shí)現(xiàn)以結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略選取模型。常見(jiàn)的線性回歸正則化方法有Lasso回歸和嶺回歸。實(shí)驗(yàn)中,選用綜合兩者特點(diǎn)的彈性網(wǎng)絡(luò)(Elastic Net)進(jìn)行多元線性回歸分析。彈性網(wǎng)絡(luò)[24]的正則項(xiàng)聯(lián)合了L1,L2范數(shù),是兩者的一個(gè)凸線性組合。訓(xùn)練模型時(shí),通過(guò)改變參數(shù)α,λ,調(diào)整L1,L2正則化在目標(biāo)函數(shù)中的比重。α為0時(shí)是嶺回歸,α為1時(shí)是Lasso回歸。因?yàn)閺椥跃W(wǎng)絡(luò)兼有嶺回歸和Lasso回歸的性質(zhì),因此可以承受雙重收縮,正則化的同時(shí)實(shí)現(xiàn)變量選擇,從而控制線性模型的復(fù)雜程度以達(dá)到穩(wěn)健性。其目標(biāo)優(yōu)化函數(shù)如下:
(1)
式中,第1項(xiàng)為誤差平方和,第2項(xiàng)為懲罰項(xiàng),其中xi為自變量,yi為因變量,代表模型的系數(shù)向量,α和λ為可調(diào)參數(shù),用于控制懲罰程度。在訓(xùn)練集中,運(yùn)用網(wǎng)格搜索法(Grid Search Method,GSM)尋找最優(yōu)建模參數(shù)。首先基于設(shè)定的參數(shù)范圍,按照一定的步長(zhǎng)排列所有參數(shù)組合,然后利用十折交叉驗(yàn)證法不斷優(yōu)化,最終選出最佳的模型參數(shù)組合。在訓(xùn)練集中構(gòu)建預(yù)測(cè)模型,最后將其應(yīng)用于測(cè)試集中以評(píng)估預(yù)測(cè)性能。
影像特征和臨床病理信息的單變量線性回歸分析結(jié)果如表2所示。
表2 單特征與RS的相關(guān)性
從表2可以看出,影像特征中與RS顯著關(guān)聯(lián)的有8維(P<0.05),具體為S0序列的球形度、平面度、聯(lián)合平均、偏度、逆差矩,SM序列的區(qū)域熵,SL序列的最大相關(guān)系數(shù),M1序列的游程熵。其中S0序列的球形度和平面度的單變量預(yù)測(cè)性能最好,R2達(dá)到了0.252和0.154。兩者與RS均呈負(fù)相關(guān)趨勢(shì),其相關(guān)性如圖1所示。圖2為2名復(fù)發(fā)風(fēng)險(xiǎn)不同的患者的DCE-MRI影像示例,對(duì)應(yīng)的RS分別為17.2和34.5,球形度分別為0.777和0.530,平面度分別為0.496和0.296。
圖1 球形度特征、平面度特征與RS相關(guān)性分析
圖2 復(fù)發(fā)風(fēng)險(xiǎn)不同的患者DCE-MRI影像示例
從圖2可以看出,與腫瘤較平滑的患者相比,腫瘤形狀不規(guī)則的患者復(fù)發(fā)風(fēng)險(xiǎn)更高。臨床參數(shù)中,年齡和Ki-67表達(dá)水平均未表現(xiàn)出與RS存在統(tǒng)計(jì)學(xué)相關(guān)性,而PR與RS關(guān)系密切。
運(yùn)用彈性網(wǎng)絡(luò)回歸模型對(duì)多特征的預(yù)測(cè)性能進(jìn)行評(píng)估。在訓(xùn)練集上選出最優(yōu)特征子集,由選出的最優(yōu)特征子集和最佳建模參數(shù)得到預(yù)測(cè)模型,然后在測(cè)試集上計(jì)算R2測(cè)試模型性能?;贒CE-MRI影像組學(xué)建立的多元線性回歸預(yù)測(cè)模型,模型評(píng)價(jià)結(jié)果為R2=0.264,P=0.038。復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分閾值設(shè)置為31,分為高風(fēng)險(xiǎn)組和非高風(fēng)險(xiǎn)組,計(jì)算得其優(yōu)勢(shì)比(Odds Ratio,OR)為4.444,95%置信區(qū)間為[1.308,15.107]。OR大于1,表明模型預(yù)測(cè)的復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分與21基因檢測(cè)得到的復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分存在關(guān)聯(lián),且為正相關(guān)。建立的基于影像特征的多元線性回歸模型為:
y1=-1.868x1-0.847x2+0.667x3+1.812x4+0.264x5+1.071x6+2.465x7+28.530
(2)
式中,x1為球形度(S0),x2為平面度(S0),x3為區(qū)域熵(SM),x4為游程熵(M1),x5為最大相關(guān)系數(shù)(SL),x6為聯(lián)合平均(S0),x7為偏度(S0)。
影像組學(xué)參數(shù)聯(lián)合臨床病理信息建立的多元線性回歸預(yù)測(cè)模型,模型性能為R2=0.295,P=0.033,OR為5.370,95%置信區(qū)間為[1.526,18.903],均有所提高。建立的影像特征聯(lián)合臨床病理信息的多元線性回歸模型為:
y2=-1.750x1-0.834x2+0.230x3+1.849x4+0.214x5+0.860x6+2.038x7+5.681x8+33.420
(3)
式中,x1為球形度(S0),x2為平面度(S0),x3為區(qū)域熵(SM),x4為游程熵(M1),x5為最大相關(guān)系數(shù)(SL),x6為聯(lián)合平均(S0),x7為偏度(S0),x8為PR。
建立基于影像特征的預(yù)測(cè)模型和影像特征聯(lián)合臨床信息的預(yù)測(cè)模型,對(duì)多特征的預(yù)測(cè)性能進(jìn)行評(píng)估,結(jié)果如表3所示。表3中,影像特征聯(lián)合臨床信息的預(yù)測(cè)模型還包含了臨床病理指標(biāo)PR,其模型參數(shù)為:PR系數(shù)=-5.681,T=-2.437,P=0.017。
表3 多元線性回歸預(yù)測(cè)模型特征分析
從表3可以看出,2個(gè)模型選出的影像特征集合完全一致,表明這7個(gè)影像特征在多變量預(yù)測(cè)中都起到了一定的預(yù)測(cè)作用,其中表現(xiàn)最佳的影像特征為S0序列的偏度,2個(gè)模型的T檢驗(yàn)結(jié)果均顯著(P<0.05)。
運(yùn)用彈性網(wǎng)絡(luò)回歸模型在測(cè)試集上預(yù)測(cè)復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分,預(yù)測(cè)得到的RS和真實(shí)RS的回歸分析如圖3所示。由圖3可以看出,2個(gè)模型在測(cè)試集上得到的預(yù)測(cè)RS和真實(shí)RS具有一定的相關(guān)性,且呈現(xiàn)正相關(guān)關(guān)系,即21基因檢測(cè)RS分值高的患者通過(guò)模型預(yù)測(cè)得到的RS也相應(yīng)偏高。
圖3 測(cè)試集上預(yù)測(cè)得到的RS和真實(shí)的RS回歸分析
本文針對(duì)DCE-MRI影像組學(xué)參數(shù)及臨床病理信息與乳腺癌21基因檢測(cè)復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分的關(guān)聯(lián)性展開(kāi)研究。首先,運(yùn)用單變量線性回歸分析檢驗(yàn)單個(gè)的影像特征和臨床病理信息與RS的相關(guān)性;然后,對(duì)特征進(jìn)行多元線性回歸分析,評(píng)估多特征對(duì)RS的預(yù)測(cè)性能。研究結(jié)果表明,基于動(dòng)態(tài)增強(qiáng)磁共振成像的影像組學(xué)參數(shù)和臨床病理信息對(duì)預(yù)測(cè)乳腺癌患者的21基因檢測(cè)復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分有潛在價(jià)值,有望在預(yù)測(cè)乳腺癌的復(fù)發(fā)風(fēng)險(xiǎn)及化療獲益中發(fā)揮作用。但是,本研究存在一定的局限性,如樣本量較小,預(yù)測(cè)模型的魯棒性需要更多的數(shù)據(jù)進(jìn)行驗(yàn)證;其次,影像參數(shù)比較單一,提取的影像特征全部來(lái)自乳腺癌DCE-MRI影像。下一步計(jì)劃在更大的數(shù)據(jù)集上展開(kāi)實(shí)驗(yàn),納入更多的影像資料,如彌散加權(quán)成像、T2加權(quán)成像等,以期發(fā)掘出更多有意義的影像標(biāo)志物。