余彩裙,裴晶晶
(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500)
乳腺癌是目前女性最常見的惡性腫瘤.據(jù)統(tǒng)計(jì),2018年乳腺癌占美國(guó)癌癥第1位,女性患癌死亡率第2位[1].在我國(guó),乳腺癌也成為女性發(fā)病率第1的癌癥,每年新復(fù)發(fā)的人數(shù)約為26.9萬人[2],并且逐年呈現(xiàn)年輕化的的趨勢(shì),因此對(duì)乳腺癌患者的預(yù)后估計(jì)尤為重要.在腫瘤免疫治療中,腫瘤浸潤(rùn)性免疫細(xì)胞在腫瘤的控制和對(duì)治療的反應(yīng)中起到重要的作用,實(shí)時(shí)了解免疫細(xì)胞在腫瘤中的浸潤(rùn)情況是指導(dǎo)臨床治療的一個(gè)非常重要的指標(biāo)[3-4].
近年來,研究者發(fā)現(xiàn)有眾多因素影響乳腺癌患者的預(yù)后水平,大致可分為3類:① 遺傳學(xué)特征,如是否攜帶乳腺癌易感基因、癌細(xì)胞DNA倍體狀態(tài)等;② 病理特征,如腫瘤的大小、位置、生長(zhǎng)速度、組織學(xué)分級(jí)情況等;③ 治療方案,如化療、免疫治療等.目前,越來越多的學(xué)者嘗試?yán)媒y(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)等方法對(duì)上述的影響因素進(jìn)行研究,以此來判斷這些因素對(duì)患者預(yù)后的影響.如You等[5]從具有不同分子預(yù)后生物標(biāo)志物狀態(tài)的受試者的圖像中獲得體素不相干運(yùn)動(dòng)(IVIM)和非高斯擴(kuò)散參數(shù),通過Mann-Whitney U檢驗(yàn)比較了IVIM和非高斯擴(kuò)散參數(shù),并計(jì)算Spearman相關(guān)系數(shù),以分析臨床腫瘤結(jié)節(jié)轉(zhuǎn)移(TNM)階段和Ki67與IVIM和非高斯擴(kuò)散參數(shù)的相關(guān)性.結(jié)果顯示IVIM和非高斯擴(kuò)散模型的體積病變直方圖分析可用于提供有關(guān)人表皮生長(zhǎng)因子受體2(HER2)陽性乳腺癌的預(yù)后信息,并可能有助于制定針對(duì)性的抗HER2靶向治療計(jì)劃.杜婧等[6]首先利用邏輯回歸方法估計(jì)乳腺癌患者總體的陽性淋巴結(jié)比率(LNR),其次建立了基于貝葉斯方法的的動(dòng)態(tài)COX回歸預(yù)后模型,研究表明使用LNR總體估計(jì)值的動(dòng)態(tài)COX回歸模型數(shù)據(jù)擬合效果較好,與其他模型相比,該模型對(duì)總體的生存率預(yù)測(cè)準(zhǔn)確度最高.盡管利用這些方法能較好的判斷乳腺癌患者的預(yù)后因素,但大多數(shù)研究?jī)H考慮了上述的影響因素,并沒有考慮到免疫細(xì)胞的浸潤(rùn)情況以及不同亞型對(duì)患者預(yù)后的影響.因此,本文利用了CIBEROST算法[7]和一致聚類方法[8],結(jié)合臨床生存數(shù)據(jù)對(duì)不同亞型的乳腺癌樣本進(jìn)行了預(yù)后分析,結(jié)果顯示不同的亞型對(duì)腫瘤預(yù)后有顯著的差異,說明運(yùn)用此方法具有一定的合理性,為臨床上乳腺癌患者的治療和預(yù)后提供理論依據(jù).
數(shù)據(jù)主要來源于The Cancer Genome Atlas (TCGA)數(shù)據(jù)庫(kù),包括兩部分:① 乳腺癌轉(zhuǎn)錄組數(shù)據(jù), 1 100 個(gè)癌癥樣本和121個(gè)癌旁樣本;② 真實(shí)的乳腺癌患者臨床數(shù)據(jù)(部分?jǐn)?shù)據(jù)見表1).從https://www.nature.com/articles/nmeth.3337下載的由22種免疫細(xì)胞構(gòu)成的基因表達(dá)標(biāo)簽矩陣(LM22).在TCGA數(shù)據(jù)庫(kù)下載的乳腺癌數(shù)據(jù),是經(jīng)過FPKM標(biāo)準(zhǔn)化的,以此消除批次或文庫(kù)大小帶來的差異.
(1)
表1 部分臨床樣本數(shù)據(jù)表
表1中,生存狀態(tài)0代表活著,1代表死亡;days_to_death表示完全數(shù)據(jù),是樣本從觀測(cè)的時(shí)間起到出現(xiàn)結(jié)局事件所經(jīng)歷的時(shí)間;造成截尾的原因有失訪、退出和終止,失訪和退出是在試驗(yàn)還沒有結(jié)束時(shí),研究者已經(jīng)追蹤不到數(shù)據(jù)了,終止是指研究已經(jīng)結(jié)束仍未觀察到樣本的結(jié)局.
目前,很多反卷積方法可用于預(yù)測(cè)復(fù)雜組織樣本中的細(xì)胞類型及比例信息[9-13].雖然這些方法在預(yù)測(cè)具有明確定義的樣本(例如血液)中不同細(xì)胞類型比例的準(zhǔn)確性較高,但是對(duì)于具有未知含量和含有噪聲的樣本(例如實(shí)體瘤)的預(yù)測(cè)效果卻不太好.而CIBERSORT[7]算法是一種基于線性支持向量回歸(SVR)且對(duì)噪聲具有高度魯棒性的機(jī)器學(xué)習(xí)方法,該算法在噪聲,未知混合物含量和密切相關(guān)的細(xì)胞類型方面都優(yōu)于其他方法.因此,本文采用CIBESORT算法來預(yù)測(cè)乳腺癌樣本中不同免疫細(xì)胞的比例.本文的總體研究路線如圖1(a)示,CIBERSORT算法具體流程策略如圖1(b)所示.
CIBERSORT算法數(shù)學(xué)表示如下:
Mij=∑rk=1SicFcj,
(2)
其中,Mij表示基因i在混合樣本j中的表達(dá)水平,是其在r細(xì)胞類型中的表達(dá)總和.Sik是標(biāo)簽矩陣(即LM22矩陣),表示基因i在免疫細(xì)胞中的基因表達(dá)水平.Fcj表示混合樣本j中細(xì)胞類型的比例,即為最終所需的結(jié)果.
LM22稱為免疫細(xì)胞基因表達(dá)標(biāo)簽矩陣.它包含547個(gè)基因,可區(qū)分22種人類造血細(xì)胞表型.將 1 100 個(gè)乳腺癌樣本 (M)和LM22矩陣(S)數(shù)據(jù)作為CIBERSORT算法的輸入,最終可得到22種免疫細(xì)胞在乳腺癌樣本中所占的比例,從而量化了乳腺癌中參與應(yīng)答的細(xì)胞組成.部分免疫細(xì)胞的比例(%)如表2所示,其中對(duì)于每個(gè)腫瘤樣品,評(píng)估的22中免疫細(xì)胞所占的比例之和等于 1.22種不同免疫細(xì)胞在乳腺癌樣本中所占的比例(F)分布如圖2所示.
表2 部分免疫細(xì)胞的比例數(shù)據(jù)
由上圖可知,在 1 100個(gè)腫瘤樣本中,CD4幼稚T細(xì)胞、活化肥大細(xì)胞和嗜酸性粒細(xì)胞的比例較低,這些低比例的免疫細(xì)胞,能在預(yù)防疾病的進(jìn)展中起到重要作用,可作為乳腺癌風(fēng)險(xiǎn)的標(biāo)志物.而未分化的巨噬細(xì)胞所占的比例最大,其次是替代性活化巨噬細(xì)胞,表明巨噬細(xì)胞在乳腺癌組織中高表達(dá),這與臨床統(tǒng)計(jì)結(jié)果[14]一致,說明運(yùn)用CIBERSORT算法估計(jì)免疫細(xì)胞的比例具有一定的合理性.
根據(jù)上述的免疫細(xì)胞比例,對(duì)樣本進(jìn)行聚類,將其分為不同的亞型,從而進(jìn)一步探討不同亞型對(duì)乳腺癌患者預(yù)后的影響.傳統(tǒng)的聚類方法需要預(yù)先給定一個(gè)聚類的數(shù)目,在比較不同聚類數(shù)目下的分類結(jié)果時(shí)沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)(比如K-means聚類),而且聚類的合理性和可靠性無法進(jìn)行驗(yàn)證.一致聚類[8]是一種無監(jiān)督聚類分析,通過基于重采樣的方法來驗(yàn)證聚類的合理性,其主要目的是評(píng)估聚類的穩(wěn)定性.在癌癥診斷中的預(yù)后分析和治療中具有潛在的高回報(bào).
一致聚類又稱為共識(shí)聚類,在聚類算法多次運(yùn)行的過程中,保證了算法的一致性,以此來確定數(shù)據(jù)中的聚類數(shù)量,從而評(píng)估聚類方法的穩(wěn)定性.算法的過程如下.
1) 首先輸入一個(gè)需要聚類的數(shù)據(jù)集D={e1,e2,…,eQ},聚類的目標(biāo)就是將觀察到的數(shù)據(jù)劃分為一組能夠列舉和非重疊的聚類.將D分為K簇的矩陣定義為V={V1,V2,…,VK},滿足
∪Ki=1VK=D
(3)
且Vi∩Vj=?,?i,j∈K,i≠j.同時(shí),還需選擇聚類算法,有K-means聚類、層次聚類、PAM聚類等方法,選擇重采樣方案,輸入重采樣循環(huán)次數(shù)H和聚類試驗(yàn)數(shù)目集合K.
2) 選擇重采樣方案和聚類方法后,為了表示和量化聚類運(yùn)行對(duì)擾動(dòng)數(shù)據(jù)的一致性,定義一個(gè)Q×Q的連通矩陣.令D(1),D(2),…,D(H)是數(shù)據(jù)集D中通過重采樣獲得的H個(gè)擾動(dòng)數(shù)據(jù)集的列表.令R(h)表示對(duì)應(yīng)于數(shù)據(jù)集D(h)h次迭代的連通矩陣.最后會(huì)得到將數(shù)據(jù)集D(h)聚成K類的結(jié)果.連通矩陣定義如下:
(4)
生成H個(gè)擾動(dòng)集和一個(gè)連通矩陣R.
3) 令I(lǐng)(h)為N×N指標(biāo)矩陣,使得如果i,j都屬于數(shù)據(jù)集D( h )時(shí),則(i,j)為1,否則為0.然后可以將連通矩陣R定義為所有擾動(dòng)數(shù)據(jù)集{D( h )∶h= 1,2,…,H}的共識(shí)矩陣的適當(dāng)歸一化的和:
(5)
4) 根據(jù)連通矩陣,定義IK為集群K的項(xiàng)的索引集,即IK={j∶ej∈K}. 定義一致矩陣TK:
(6)
也就是說屬于同一集群的所有項(xiàng)目對(duì)之間的平均共識(shí)指數(shù).生成K下的一致矩陣TK.
5) 基于TK劃分樣本集合D進(jìn)入K個(gè)聚類中,最后返回劃分P和K下的一致矩陣TK.
根據(jù)得到的Delta area圖,就可確定最佳的聚類數(shù)K值.
本文使用R語言平臺(tái)(Windows系統(tǒng)3.6.1版本)下的Bioconductor生物信息分析軟件中的ConsensusClusterPlus軟件包對(duì)CIBEROSORT預(yù)測(cè)出的22×1 100比例矩陣進(jìn)行了一致聚類分析.在聚類過程中,采用蘭氏距離來確定樣本間的距離,公式如下[15]:
(7)
結(jié)果如圖3所示,當(dāng)K=4時(shí),其不同類別數(shù)之間的差異趨于平緩.因此,選擇K=4作為最佳分類結(jié)果,即可將 1 100 個(gè)乳腺癌樣本劃分成4種不同的亞型.
預(yù)后分析是對(duì)疾病發(fā)病后發(fā)展為各種不同結(jié)局的預(yù)測(cè),根據(jù)疾病的不同亞型,結(jié)合臨床數(shù)據(jù),進(jìn)而判斷疾病的預(yù)后.預(yù)后分析有許多不同的評(píng)價(jià)指標(biāo)和方法,其中生存分析是預(yù)后研究中最常用的統(tǒng)計(jì)學(xué)方法.因此為了進(jìn)一步探討不同亞型對(duì)乳腺癌患者的預(yù)后影響,本文主要進(jìn)行生存分析.生存分析是研究影響因素對(duì)生存時(shí)間和結(jié)局關(guān)系的一種方法,生存概率是指某段時(shí)間開始時(shí)存活的樣本至該時(shí)間結(jié)束時(shí)仍然存活的可能性大小.生存概率可以表示為:
(8)
其中,P表示生存概率,A表示活過某段時(shí)間的人數(shù),G表示該時(shí)段初期觀察人數(shù).本文采用乘積極限法(Kaplan-Meier survival estimate, K-M法)對(duì)乳腺癌4種不同的亞型進(jìn)行生存分析,生存曲線如圖4所示.運(yùn)用對(duì)數(shù)秩檢驗(yàn)探究不同時(shí)期4種亞型的生存率差別是否有統(tǒng)計(jì)學(xué)意義.若P值<0.05,認(rèn)為多組總體生存曲線差異顯著,有統(tǒng)計(jì)學(xué)意義.
由圖4可知,隨著隨訪時(shí)間的增加,生存率從1逐漸下降.Pattern 2這組的生存率大概達(dá)到55%趨于穩(wěn)定,且隨著隨訪時(shí)間的增加生存曲線比較平緩,說明Pattern 2這組有較高的生存率.Pattern 1和Pattern 3兩組相對(duì)于Pattern 2的生存率較低一些,說明Pattern 1和Pattern 3兩組都有較長(zhǎng)生存期,且Pattern 1的生存期比Pattern 3的要長(zhǎng).但是Pattern 4這組隨著隨訪時(shí)間的增加,生存率越來越低,生存曲線也越來越陡峭,說明Pattern 4這組的患者生存率較低.且p值(0.008 2)<0.05,表明4種不同亞型的總體生存曲線差異顯著,具有統(tǒng)計(jì)學(xué)意義.進(jìn)一步說明應(yīng)用一致聚類分析方法進(jìn)行亞型分類,研究乳腺癌患者的預(yù)后具有一定的合理性.
本文主要針對(duì)不同亞型的腫瘤樣本對(duì)患者的預(yù)后影響展開研究.主要包括以下3方面的工作:① 首先利用CIBEROST算法預(yù)測(cè) 1 100 個(gè)乳腺癌腫瘤樣本中不同免疫細(xì)胞的浸潤(rùn)比例情況;② 然后根據(jù)免疫細(xì)胞的比例應(yīng)用一致聚類方法對(duì)腫瘤樣本進(jìn)行亞型分類,將樣本劃分為4種不同的亞型;③ 最后進(jìn)行預(yù)后分析,發(fā)現(xiàn)不同的亞型對(duì)乳腺癌患者的預(yù)后有顯著差異(p值為 0.008 2,小于0.05).研究表明本文應(yīng)用CIBERSORT算法和一致聚類方法,對(duì)不同亞型的患者進(jìn)行預(yù)后分析是合理的.因此臨床上正確鑒定不同乳腺癌亞型,對(duì)于后續(xù)的診斷和指導(dǎo)用藥具有重要的意義和價(jià)值.