基于CIBERSORT預(yù)測(cè)乳腺癌浸潤(rùn)性免疫細(xì)胞比例及亞型預(yù)后分析

2020-04-30 01:49:34余彩裙裴晶晶

云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年1期

余彩裙，裴晶晶

(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，云南昆明 650500)

乳腺癌是目前女性最常見的惡性腫瘤.據(jù)統(tǒng)計(jì)，2018年乳腺癌占美國(guó)癌癥第1位，女性患癌死亡率第2位[1].在我國(guó)，乳腺癌也成為女性發(fā)病率第1的癌癥，每年新復(fù)發(fā)的人數(shù)約為26.9萬人[2]，并且逐年呈現(xiàn)年輕化的的趨勢(shì)，因此對(duì)乳腺癌患者的預(yù)后估計(jì)尤為重要.在腫瘤免疫治療中，腫瘤浸潤(rùn)性免疫細(xì)胞在腫瘤的控制和對(duì)治療的反應(yīng)中起到重要的作用，實(shí)時(shí)了解免疫細(xì)胞在腫瘤中的浸潤(rùn)情況是指導(dǎo)臨床治療的一個(gè)非常重要的指標(biāo)[3-4].

近年來，研究者發(fā)現(xiàn)有眾多因素影響乳腺癌患者的預(yù)后水平，大致可分為3類：① 遺傳學(xué)特征，如是否攜帶乳腺癌易感基因、癌細(xì)胞DNA倍體狀態(tài)等；② 病理特征，如腫瘤的大小、位置、生長(zhǎng)速度、組織學(xué)分級(jí)情況等；③ 治療方案，如化療、免疫治療等.目前，越來越多的學(xué)者嘗試?yán)媒y(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)等方法對(duì)上述的影響因素進(jìn)行研究，以此來判斷這些因素對(duì)患者預(yù)后的影響.如You等[5]從具有不同分子預(yù)后生物標(biāo)志物狀態(tài)的受試者的圖像中獲得體素不相干運(yùn)動(dòng)(IVIM)和非高斯擴(kuò)散參數(shù)，通過Mann-Whitney U檢驗(yàn)比較了IVIM和非高斯擴(kuò)散參數(shù)，并計(jì)算Spearman相關(guān)系數(shù)，以分析臨床腫瘤結(jié)節(jié)轉(zhuǎn)移(TNM)階段和Ki67與IVIM和非高斯擴(kuò)散參數(shù)的相關(guān)性.結(jié)果顯示IVIM和非高斯擴(kuò)散模型的體積病變直方圖分析可用于提供有關(guān)人表皮生長(zhǎng)因子受體2(HER2)陽性乳腺癌的預(yù)后信息，并可能有助于制定針對(duì)性的抗HER2靶向治療計(jì)劃.杜婧等[6]首先利用邏輯回歸方法估計(jì)乳腺癌患者總體的陽性淋巴結(jié)比率(LNR)，其次建立了基于貝葉斯方法的的動(dòng)態(tài)COX回歸預(yù)后模型，研究表明使用LNR總體估計(jì)值的動(dòng)態(tài)COX回歸模型數(shù)據(jù)擬合效果較好，與其他模型相比，該模型對(duì)總體的生存率預(yù)測(cè)準(zhǔn)確度最高.盡管利用這些方法能較好的判斷乳腺癌患者的預(yù)后因素，但大多數(shù)研究?jī)H考慮了上述的影響因素，并沒有考慮到免疫細(xì)胞的浸潤(rùn)情況以及不同亞型對(duì)患者預(yù)后的影響.因此，本文利用了CIBEROST算法[7]和一致聚類方法[8]，結(jié)合臨床生存數(shù)據(jù)對(duì)不同亞型的乳腺癌樣本進(jìn)行了預(yù)后分析，結(jié)果顯示不同的亞型對(duì)腫瘤預(yù)后有顯著的差異,說明運(yùn)用此方法具有一定的合理性，為臨床上乳腺癌患者的治療和預(yù)后提供理論依據(jù).

1 數(shù)據(jù)來源及數(shù)據(jù)預(yù)處理

數(shù)據(jù)主要來源于The Cancer Genome Atlas (TCGA)數(shù)據(jù)庫(kù),包括兩部分：① 乳腺癌轉(zhuǎn)錄組數(shù)據(jù)， 1 100 個(gè)癌癥樣本和121個(gè)癌旁樣本；② 真實(shí)的乳腺癌患者臨床數(shù)據(jù)(部分?jǐn)?shù)據(jù)見表1).從https://www.nature.com/articles/nmeth.3337下載的由22種免疫細(xì)胞構(gòu)成的基因表達(dá)標(biāo)簽矩陣(LM22).在TCGA數(shù)據(jù)庫(kù)下載的乳腺癌數(shù)據(jù)，是經(jīng)過FPKM標(biāo)準(zhǔn)化的，以此消除批次或文庫(kù)大小帶來的差異.

(1)

表1 部分臨床樣本數(shù)據(jù)表

表1中，生存狀態(tài)0代表活著，1代表死亡；days_to_death表示完全數(shù)據(jù)，是樣本從觀測(cè)的時(shí)間起到出現(xiàn)結(jié)局事件所經(jīng)歷的時(shí)間；造成截尾的原因有失訪、退出和終止，失訪和退出是在試驗(yàn)還沒有結(jié)束時(shí)，研究者已經(jīng)追蹤不到數(shù)據(jù)了，終止是指研究已經(jīng)結(jié)束仍未觀察到樣本的結(jié)局.

2 預(yù)測(cè)乳腺癌樣本中不同免疫細(xì)胞浸潤(rùn)比例

目前，很多反卷積方法可用于預(yù)測(cè)復(fù)雜組織樣本中的細(xì)胞類型及比例信息[9-13].雖然這些方法在預(yù)測(cè)具有明確定義的樣本(例如血液)中不同細(xì)胞類型比例的準(zhǔn)確性較高，但是對(duì)于具有未知含量和含有噪聲的樣本(例如實(shí)體瘤)的預(yù)測(cè)效果卻不太好.而CIBERSORT[7]算法是一種基于線性支持向量回歸(SVR)且對(duì)噪聲具有高度魯棒性的機(jī)器學(xué)習(xí)方法，該算法在噪聲，未知混合物含量和密切相關(guān)的細(xì)胞類型方面都優(yōu)于其他方法.因此，本文采用CIBESORT算法來預(yù)測(cè)乳腺癌樣本中不同免疫細(xì)胞的比例.本文的總體研究路線如圖1(a)示,CIBERSORT算法具體流程策略如圖1(b)所示.

CIBERSORT算法數(shù)學(xué)表示如下：

Mij=∑rk=1SicFcj，

(2)

其中，Mij表示基因i在混合樣本j中的表達(dá)水平，是其在r細(xì)胞類型中的表達(dá)總和.Sik是標(biāo)簽矩陣(即LM22矩陣)，表示基因i在免疫細(xì)胞中的基因表達(dá)水平.Fcj表示混合樣本j中細(xì)胞類型的比例，即為最終所需的結(jié)果.

LM22稱為免疫細(xì)胞基因表達(dá)標(biāo)簽矩陣.它包含547個(gè)基因，可區(qū)分22種人類造血細(xì)胞表型.將 1 100 個(gè)乳腺癌樣本 (M)和LM22矩陣(S)數(shù)據(jù)作為CIBERSORT算法的輸入，最終可得到22種免疫細(xì)胞在乳腺癌樣本中所占的比例，從而量化了乳腺癌中參與應(yīng)答的細(xì)胞組成.部分免疫細(xì)胞的比例(%)如表2所示，其中對(duì)于每個(gè)腫瘤樣品，評(píng)估的22中免疫細(xì)胞所占的比例之和等于 1.22種不同免疫細(xì)胞在乳腺癌樣本中所占的比例(F)分布如圖2所示.

表2 部分免疫細(xì)胞的比例數(shù)據(jù)

由上圖可知，在 1 100個(gè)腫瘤樣本中，CD4幼稚T細(xì)胞、活化肥大細(xì)胞和嗜酸性粒細(xì)胞的比例較低，這些低比例的免疫細(xì)胞，能在預(yù)防疾病的進(jìn)展中起到重要作用，可作為乳腺癌風(fēng)險(xiǎn)的標(biāo)志物.而未分化的巨噬細(xì)胞所占的比例最大，其次是替代性活化巨噬細(xì)胞，表明巨噬細(xì)胞在乳腺癌組織中高表達(dá)，這與臨床統(tǒng)計(jì)結(jié)果[14]一致，說明運(yùn)用CIBERSORT算法估計(jì)免疫細(xì)胞的比例具有一定的合理性.

3 一致性聚類

根據(jù)上述的免疫細(xì)胞比例，對(duì)樣本進(jìn)行聚類，將其分為不同的亞型，從而進(jìn)一步探討不同亞型對(duì)乳腺癌患者預(yù)后的影響.傳統(tǒng)的聚類方法需要預(yù)先給定一個(gè)聚類的數(shù)目，在比較不同聚類數(shù)目下的分類結(jié)果時(shí)沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)(比如K-means聚類)，而且聚類的合理性和可靠性無法進(jìn)行驗(yàn)證.一致聚類[8]是一種無監(jiān)督聚類分析，通過基于重采樣的方法來驗(yàn)證聚類的合理性，其主要目的是評(píng)估聚類的穩(wěn)定性.在癌癥診斷中的預(yù)后分析和治療中具有潛在的高回報(bào).

一致聚類又稱為共識(shí)聚類，在聚類算法多次運(yùn)行的過程中，保證了算法的一致性，以此來確定數(shù)據(jù)中的聚類數(shù)量，從而評(píng)估聚類方法的穩(wěn)定性.算法的過程如下.

1) 首先輸入一個(gè)需要聚類的數(shù)據(jù)集D={e1,e2,…,eQ}，聚類的目標(biāo)就是將觀察到的數(shù)據(jù)劃分為一組能夠列舉和非重疊的聚類.將D分為K簇的矩陣定義為V={V1,V2,…,VK},滿足

∪Ki=1VK=D

(3)

且Vi∩Vj=?,?i,j∈K,i≠j.同時(shí)，還需選擇聚類算法，有K-means聚類、層次聚類、PAM聚類等方法，選擇重采樣方案，輸入重采樣循環(huán)次數(shù)H和聚類試驗(yàn)數(shù)目集合K.

2) 選擇重采樣方案和聚類方法后，為了表示和量化聚類運(yùn)行對(duì)擾動(dòng)數(shù)據(jù)的一致性，定義一個(gè)Q×Q的連通矩陣.令D(1),D(2),…,D(H)是數(shù)據(jù)集D中通過重采樣獲得的H個(gè)擾動(dòng)數(shù)據(jù)集的列表.令R(h)表示對(duì)應(yīng)于數(shù)據(jù)集D(h)h次迭代的連通矩陣.最后會(huì)得到將數(shù)據(jù)集D(h)聚成K類的結(jié)果.連通矩陣定義如下：

(4)

生成H個(gè)擾動(dòng)集和一個(gè)連通矩陣R.

3) 令I(lǐng)(h)為N×N指標(biāo)矩陣，使得如果i,j都屬于數(shù)據(jù)集D( h )時(shí)，則(i,j)為1，否則為0.然后可以將連通矩陣R定義為所有擾動(dòng)數(shù)據(jù)集{D( h )∶h= 1,2,…,H}的共識(shí)矩陣的適當(dāng)歸一化的和:

(5)

4) 根據(jù)連通矩陣，定義IK為集群K的項(xiàng)的索引集，即IK={j∶ej∈K}. 定義一致矩陣TK：

(6)

也就是說屬于同一集群的所有項(xiàng)目對(duì)之間的平均共識(shí)指數(shù).生成K下的一致矩陣TK.

5) 基于TK劃分樣本集合D進(jìn)入K個(gè)聚類中，最后返回劃分P和K下的一致矩陣TK.

根據(jù)得到的Delta area圖，就可確定最佳的聚類數(shù)K值.

本文使用R語言平臺(tái)(Windows系統(tǒng)3.6.1版本)下的Bioconductor生物信息分析軟件中的ConsensusClusterPlus軟件包對(duì)CIBEROSORT預(yù)測(cè)出的22×1 100比例矩陣進(jìn)行了一致聚類分析.在聚類過程中，采用蘭氏距離來確定樣本間的距離，公式如下[15]：

(7)

結(jié)果如圖3所示，當(dāng)K=4時(shí)，其不同類別數(shù)之間的差異趨于平緩.因此，選擇K=4作為最佳分類結(jié)果，即可將 1 100 個(gè)乳腺癌樣本劃分成4種不同的亞型.

4 預(yù)后分析

預(yù)后分析是對(duì)疾病發(fā)病后發(fā)展為各種不同結(jié)局的預(yù)測(cè)，根據(jù)疾病的不同亞型，結(jié)合臨床數(shù)據(jù)，進(jìn)而判斷疾病的預(yù)后.預(yù)后分析有許多不同的評(píng)價(jià)指標(biāo)和方法，其中生存分析是預(yù)后研究中最常用的統(tǒng)計(jì)學(xué)方法.因此為了進(jìn)一步探討不同亞型對(duì)乳腺癌患者的預(yù)后影響，本文主要進(jìn)行生存分析.生存分析是研究影響因素對(duì)生存時(shí)間和結(jié)局關(guān)系的一種方法，生存概率是指某段時(shí)間開始時(shí)存活的樣本至該時(shí)間結(jié)束時(shí)仍然存活的可能性大小.生存概率可以表示為：

(8)

其中，P表示生存概率，A表示活過某段時(shí)間的人數(shù)，G表示該時(shí)段初期觀察人數(shù).本文采用乘積極限法(Kaplan-Meier survival estimate, K-M法)對(duì)乳腺癌4種不同的亞型進(jìn)行生存分析，生存曲線如圖4所示.運(yùn)用對(duì)數(shù)秩檢驗(yàn)探究不同時(shí)期4種亞型的生存率差別是否有統(tǒng)計(jì)學(xué)意義.若P值<0.05，認(rèn)為多組總體生存曲線差異顯著，有統(tǒng)計(jì)學(xué)意義.

由圖4可知，隨著隨訪時(shí)間的增加，生存率從1逐漸下降.Pattern 2這組的生存率大概達(dá)到55%趨于穩(wěn)定，且隨著隨訪時(shí)間的增加生存曲線比較平緩，說明Pattern 2這組有較高的生存率.Pattern 1和Pattern 3兩組相對(duì)于Pattern 2的生存率較低一些，說明Pattern 1和Pattern 3兩組都有較長(zhǎng)生存期，且Pattern 1的生存期比Pattern 3的要長(zhǎng).但是Pattern 4這組隨著隨訪時(shí)間的增加，生存率越來越低，生存曲線也越來越陡峭，說明Pattern 4這組的患者生存率較低.且p值(0.008 2)<0.05，表明4種不同亞型的總體生存曲線差異顯著，具有統(tǒng)計(jì)學(xué)意義.進(jìn)一步說明應(yīng)用一致聚類分析方法進(jìn)行亞型分類，研究乳腺癌患者的預(yù)后具有一定的合理性.

5 結(jié)語

本文主要針對(duì)不同亞型的腫瘤樣本對(duì)患者的預(yù)后影響展開研究.主要包括以下3方面的工作：① 首先利用CIBEROST算法預(yù)測(cè) 1 100 個(gè)乳腺癌腫瘤樣本中不同免疫細(xì)胞的浸潤(rùn)比例情況；② 然后根據(jù)免疫細(xì)胞的比例應(yīng)用一致聚類方法對(duì)腫瘤樣本進(jìn)行亞型分類，將樣本劃分為4種不同的亞型；③ 最后進(jìn)行預(yù)后分析，發(fā)現(xiàn)不同的亞型對(duì)乳腺癌患者的預(yù)后有顯著差異(p值為 0.008 2，小于0.05).研究表明本文應(yīng)用CIBERSORT算法和一致聚類方法，對(duì)不同亞型的患者進(jìn)行預(yù)后分析是合理的.因此臨床上正確鑒定不同乳腺癌亞型，對(duì)于后續(xù)的診斷和指導(dǎo)用藥具有重要的意義和價(jià)值.