趙順 王樹萌 秦金鳳
乳腺癌的發(fā)生發(fā)展機(jī)制和治療方式研究雖然已取得了較大進(jìn)展,但乳腺癌仍然是全球女性最常見的惡性腫瘤,每年約有210萬(wàn)例新發(fā)病例,且大多數(shù)患者因轉(zhuǎn)移而死亡[1-2]。因此,早期有效檢測(cè)轉(zhuǎn)移復(fù)發(fā)是降低乳腺癌死亡率的關(guān)鍵。新輔助化療(neoadjuvant chemotherapy,NAC)是乳腺癌患者常用的治療策略,在無(wú)法手術(shù)情況下,能使腫瘤縮小并消除微轉(zhuǎn)移灶[3]。病理完全反應(yīng)(pathological complete response,pCR)指NAC后乳腺或腋窩中無(wú)殘留腫瘤細(xì)胞,意味著患者長(zhǎng)期存活且無(wú)復(fù)發(fā)[4]。目前,不管是從臨床實(shí)踐還是科學(xué)研究層面,多數(shù)情況下將pCR作為判定早期乳腺癌患者近期療效以及遠(yuǎn)期生存獲益的替代指標(biāo),可以在較短時(shí)間內(nèi)檢驗(yàn)?zāi)[瘤對(duì)藥物的敏感性,以指導(dǎo)后續(xù)的個(gè)體化治療。既往研究顯示,檢測(cè)NAC反應(yīng)有助于預(yù)測(cè)乳腺癌預(yù)后[5]?;贜AC后殘留腫瘤體積的殘留癌癥負(fù)荷評(píng)分在預(yù)測(cè)乳腺癌患者預(yù)后中也具有良好效能[6]。近年來(lái),機(jī)器學(xué)習(xí)進(jìn)一步提高了乳腺癌診斷的準(zhǔn)確性,在預(yù)測(cè)復(fù)發(fā)和預(yù)后中也展現(xiàn)了應(yīng)用前景[7-9]。本研究將基于乳腺癌患者臨床病理特征構(gòu)建可用于預(yù)測(cè)乳腺癌患者NAC后的pCR的機(jī)器學(xué)習(xí)模型,以期為進(jìn)一步提高其預(yù)測(cè)準(zhǔn)確性提供新的途徑。
收集2015年1月至2020年12月在本院接受NAC治療和根治性手術(shù)的875例乳腺癌患者的臨床信息。納入標(biāo)準(zhǔn):⑴病理確診為乳腺癌;⑵接受NAC治療;⑶行根治性手術(shù);⑷年齡大于18歲。875例患者中排除113例,其中雙側(cè)同步乳腺癌55例,因患者拒絕接受根治性手術(shù)54例,手術(shù)病理結(jié)果不完整2例,NAC方案數(shù)據(jù)缺失2例。本研究經(jīng)本院倫理委員會(huì)審核通過(guò)。本研究根據(jù)赫爾辛基宣言進(jìn)行,并在設(shè)計(jì)和報(bào)告時(shí)遵循STROBE[10]和TRIPOD[11]報(bào)告指南。
從本院電子病歷系統(tǒng)收集患者臨床和病理數(shù)據(jù),包括年齡、體重指數(shù)(body mass index,BMI)、更年期狀態(tài)、吸煙狀態(tài)、診斷時(shí)合并癥情況、CEA水平、CA-15-3水平、病理類型、臨床分期、T分期、N分期、NAC方案、病理診斷信息以及雌激素受體(estrogen receptor,ER)狀態(tài)、孕激素受體(progesterone receptor,PR)狀態(tài)、HER2和Ki-67狀態(tài)等,其中臨床分期基于美國(guó)癌癥聯(lián)合會(huì)(AJCC)乳腺癌TNM分期系統(tǒng)第7版。通過(guò)IHC染色明確形態(tài)學(xué)診斷和受體狀態(tài)(ER、PR和HER2)。ER陽(yáng)性和PR陽(yáng)性被定義為Allred評(píng)分為3~8。激素受體(HR)陽(yáng)性定義為ER或PR陽(yáng)性。Ki-67免疫組化分析采用獨(dú)立半定量法評(píng)價(jià),Ki-67結(jié)果分為4個(gè)等級(jí):0~25%為1+;26%~50%為2+;51%~75%為3+;>75%為4+。
年齡、BMI、血清CEA水平和CA-15-3水平不作轉(zhuǎn)換,保持計(jì)量數(shù)據(jù)形式。更年期狀態(tài)分為絕經(jīng)前或絕經(jīng)后;吸煙狀態(tài)分為當(dāng)前/曾經(jīng)吸煙者或從不吸煙者;病理類型分為浸潤(rùn)性導(dǎo)管癌(invasive ductal carcinoma,IDC)或非IDC。臨床分期分為Ⅰ期、Ⅱ期、Ⅲ期;T分期分為0~4期、N分期分為0~3期。Ki-67范圍介于+1和+4之間;ER、PR、HER2均為二分類變量,包括陽(yáng)性或陰性。化療方案被分為蒽環(huán)類化療(多柔比星+環(huán)磷酰胺,即AC方案)+紫杉烷(T)、曲妥珠單抗單藥化療、曲妥珠單抗+帕妥珠單抗治療、AC+T+Platinum、單獨(dú)AC方案化療以及其他方案等6類。選擇單因素差異有統(tǒng)計(jì)學(xué)意義的因素為預(yù)測(cè)特征,同時(shí)排除相關(guān)性較高的變量。
采用R 4.1.1軟件進(jìn)行數(shù)據(jù)分析和模型開發(fā)。計(jì)量資料采用均數(shù)±標(biāo)準(zhǔn)差描述,組間比較采用獨(dú)立樣本t檢驗(yàn),分類資料采用例數(shù)(百分比)描述,組間比較采用卡方檢驗(yàn)或Fisher精確概率法。模型開發(fā)首先將數(shù)據(jù)按7∶3的比例隨機(jī)分為訓(xùn)練集和驗(yàn)證集。在訓(xùn)練集中分別構(gòu)建5個(gè)機(jī)器學(xué)習(xí)模型:Logistic回歸(LR)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、簡(jiǎn)單貝葉斯(naive bayes,NB)、隨機(jī)森林(random forest,RF)以及XGboost模型。模型訓(xùn)練采用5折交叉驗(yàn)證,重復(fù)抽樣次數(shù)為1 000次,使用貝葉斯優(yōu)化進(jìn)行超參數(shù)調(diào)整。采用受試者工作特征(receiver operating characteristic,ROC)曲線下面積(AUC)、準(zhǔn)確性、敏感度和特異度進(jìn)行模型評(píng)價(jià)。選擇AUC最大的機(jī)器學(xué)習(xí)算法為最終模型,采用基尼指數(shù)評(píng)價(jià)特征的重要性。本研究所有的統(tǒng)計(jì)檢驗(yàn)均為雙側(cè),以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
共742例患者納入分析,按照7∶3的比例分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集533例,驗(yàn)證集209例。兩組患者一般資料比較差異均無(wú)統(tǒng)計(jì)學(xué)意義(均P>0.05),見表1。
表1 訓(xùn)練集和驗(yàn)證集的一般資料Tab.1 Baseline characteristics of training set and validation set
單因素分析顯示,年齡、CA-15-3水平、ER狀態(tài)、PR狀態(tài)、HER2狀態(tài)、Ki-67表達(dá)水平、臨床分期、T分期、N分期以及NAC方案等可能影響pCR(均P<0.05),見表2。在這些因素中,由于臨床分期和N分期(r=0.93)高度相關(guān),故排除臨床分期。因此,選擇年齡、CA-15-3、ER狀態(tài)、PR狀態(tài)、HER2狀態(tài)、Ki-67、T分期、N分期和NAC方案等特征進(jìn)行后續(xù)建模。
表2 患者特征與NAC病理完全反應(yīng)的單因素分析Tab.2 Univariable analysis between patient characteristics and pathological response to NAC
構(gòu)建了ANN、LR、NB、RF和XGboost 5個(gè)模型,其中XGboost模型的性能最高,其在訓(xùn)練集和驗(yàn)證集中的AUC分別為0.850、0.834,見圖1和表3。因此,使用XGboost模型為本研究所構(gòu)建的模型,詳細(xì)超參數(shù)見表4。采用基尼指數(shù)評(píng)級(jí)模型特征的重要性,特征的重要性依次為ER狀態(tài)、臨床T分期、化療方案、HER2狀態(tài)、臨床N分期、年齡、Ki-67、PR狀態(tài)和CA-15-3,見圖2。
表3 5個(gè)預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)Tab.3 Evaluation indicators of the 5 prediction models
表4 XGboost模型的超參數(shù)Tab.4 Hyper-parameters of XGboost model
圖1 5個(gè)預(yù)測(cè)模型的ROC曲線Fig.1 ROC curves for the 5 prediction models
圖2 XGboost模型中各臨床特征的重要性Fig.2 Feature importance in the XGboost model
用于大數(shù)據(jù)分析的機(jī)器學(xué)習(xí)方法改變了傳統(tǒng)的腫瘤預(yù)測(cè)方式。作為人工智能的一個(gè)子集,機(jī)器學(xué)習(xí)提供了一種創(chuàng)新的數(shù)據(jù)分析和解釋方法,且在一定程度上超越了傳統(tǒng)統(tǒng)計(jì)學(xué)[12]。機(jī)器學(xué)習(xí)能自動(dòng)處理大量多維和多種數(shù)據(jù)的能力,最終可能揭示臨床病理特征與pCR的新關(guān)聯(lián)。這種從大數(shù)據(jù)中整合新的預(yù)測(cè)因子的能力,也突出了機(jī)器學(xué)習(xí)在腫瘤醫(yī)學(xué)中的重要適用性。目前多項(xiàng)研究已顯示,機(jī)器學(xué)習(xí)算法在預(yù)測(cè)方面具有顯著優(yōu)勢(shì)[13-14]。本研究在接受NAC的乳腺癌患者中,基于患者的ER狀態(tài)、臨床T分期、化療方案、HER2狀態(tài)、臨床N分期、年齡、Ki-67、PR狀態(tài)和CA-15-3水平等特征構(gòu)建的XGboost模型具有較高的預(yù)測(cè)效能,且具有不同權(quán)重的不同臨床特征均可影響pCR;該模型在訓(xùn)練集和驗(yàn)證集中的AUC分別為0.850、0.834,預(yù)測(cè)效能均優(yōu)于本研究構(gòu)建的其余機(jī)器學(xué)習(xí)模型,為準(zhǔn)確預(yù)測(cè)乳腺癌患者NAC后的pCR提供了一種實(shí)用的機(jī)器學(xué)習(xí)技術(shù),也有助于制定乳腺癌NAC患者個(gè)體化的治療策略。
本研究發(fā)現(xiàn)CA-15-3是預(yù)測(cè)乳腺癌pCR的重要特征之一。目前美國(guó)臨床腫瘤學(xué)會(huì)(ASCO)雖然不推薦使用CEA和CA-15-3用于乳腺癌篩查、診斷或監(jiān)測(cè)治療,但認(rèn)為CA-15-3在早期乳腺癌中對(duì)預(yù)后有重要意義[15]。目前較多研究報(bào)道了可用于預(yù)測(cè)NAC反應(yīng)的生物標(biāo)志物[16-18]。但是,這些生物標(biāo)志物在真實(shí)世界實(shí)踐中預(yù)測(cè)pCR仍存在一定的挑戰(zhàn),單個(gè)標(biāo)志物的預(yù)測(cè)效能仍不理想。在本研究構(gòu)建機(jī)器學(xué)習(xí)模型通過(guò)綜合乳腺癌患者臨床上常見多種的特征,具有以下優(yōu)勢(shì):一是多指標(biāo)聯(lián)合具有更好的預(yù)測(cè)效能;二是這些指標(biāo)均為臨床常規(guī)指標(biāo),易于檢測(cè)和收集,因此具有良好的可操作性。本研究還顯示,化療方案在特征重要性中位列第3。無(wú)論哪種亞型乳腺癌,化療藥物都是影響NAC反應(yīng)的重要因素。在乳腺癌患者化療療效分析中,既往研究發(fā)現(xiàn),與單獨(dú)使用蒽環(huán)類藥物治療的患者相比,采用蒽環(huán)類聯(lián)合紫杉類藥物治療的患者具有更高的pCR率和更好的生存結(jié)局[19-20]。但是,在NAC方案中,盡管部分三陰性乳腺癌患者從一般治療中獲得了生存益處,但是額外的鉑類藥物是否有效仍然存在爭(zhēng)議[21]。而本研究納入了所有亞型的乳腺癌,表明構(gòu)建的預(yù)測(cè)模型具有一定的普適性和推廣性,在指導(dǎo)NAC治療決策以及改善NAC化療方案方面具有重要的參考價(jià)值。
綜上所述,本研究使用年齡、CA-15-3、ER狀態(tài)、PR狀態(tài)、HER2狀態(tài)、Ki-67、T分期、N分期和NAC方案等開發(fā)的用于預(yù)測(cè)乳腺癌患者NAC后的pCR的機(jī)器學(xué)習(xí)模型XGboost具有良好的效能,為預(yù)測(cè)乳腺癌患者pCR提供了一種新的機(jī)器學(xué)習(xí)技術(shù)。但本研究尚未在外部隊(duì)列中對(duì)模型進(jìn)行驗(yàn)證,后續(xù)仍需開展前瞻性、多中心研究進(jìn)一步驗(yàn)證和優(yōu)化該模型。此外,對(duì)于機(jī)器學(xué)習(xí)而言,實(shí)時(shí)添加新發(fā)現(xiàn)的預(yù)測(cè)變量是可行的,雖然本研究是基于回顧性研究,但是未來(lái)仍可以添加新的變量實(shí)時(shí)更新或調(diào)整預(yù)測(cè)模型,相信隨著臨床醫(yī)師繼續(xù)通過(guò)電子病歷系統(tǒng)收集大量患者數(shù)據(jù),機(jī)器學(xué)習(xí)將成為越來(lái)越重要的研究工具。