• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CIBERSORT預(yù)測(cè)乳腺癌浸潤(rùn)性免疫細(xì)胞比例及亞型預(yù)后分析

      2020-04-30 01:49:34余彩裙裴晶晶
      關(guān)鍵詞:亞型比例聚類

      余彩裙,裴晶晶

      (云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500)

      乳腺癌是目前女性最常見的惡性腫瘤.據(jù)統(tǒng)計(jì),2018年乳腺癌占美國(guó)癌癥第1位,女性患癌死亡率第2位[1].在我國(guó),乳腺癌也成為女性發(fā)病率第1的癌癥,每年新復(fù)發(fā)的人數(shù)約為26.9萬人[2],并且逐年呈現(xiàn)年輕化的的趨勢(shì),因此對(duì)乳腺癌患者的預(yù)后估計(jì)尤為重要.在腫瘤免疫治療中,腫瘤浸潤(rùn)性免疫細(xì)胞在腫瘤的控制和對(duì)治療的反應(yīng)中起到重要的作用,實(shí)時(shí)了解免疫細(xì)胞在腫瘤中的浸潤(rùn)情況是指導(dǎo)臨床治療的一個(gè)非常重要的指標(biāo)[3-4].

      近年來,研究者發(fā)現(xiàn)有眾多因素影響乳腺癌患者的預(yù)后水平,大致可分為3類:① 遺傳學(xué)特征,如是否攜帶乳腺癌易感基因、癌細(xì)胞DNA倍體狀態(tài)等;② 病理特征,如腫瘤的大小、位置、生長(zhǎng)速度、組織學(xué)分級(jí)情況等;③ 治療方案,如化療、免疫治療等.目前,越來越多的學(xué)者嘗試?yán)媒y(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)等方法對(duì)上述的影響因素進(jìn)行研究,以此來判斷這些因素對(duì)患者預(yù)后的影響.如You等[5]從具有不同分子預(yù)后生物標(biāo)志物狀態(tài)的受試者的圖像中獲得體素不相干運(yùn)動(dòng)(IVIM)和非高斯擴(kuò)散參數(shù),通過Mann-Whitney U檢驗(yàn)比較了IVIM和非高斯擴(kuò)散參數(shù),并計(jì)算Spearman相關(guān)系數(shù),以分析臨床腫瘤結(jié)節(jié)轉(zhuǎn)移(TNM)階段和Ki67與IVIM和非高斯擴(kuò)散參數(shù)的相關(guān)性.結(jié)果顯示IVIM和非高斯擴(kuò)散模型的體積病變直方圖分析可用于提供有關(guān)人表皮生長(zhǎng)因子受體2(HER2)陽性乳腺癌的預(yù)后信息,并可能有助于制定針對(duì)性的抗HER2靶向治療計(jì)劃.杜婧等[6]首先利用邏輯回歸方法估計(jì)乳腺癌患者總體的陽性淋巴結(jié)比率(LNR),其次建立了基于貝葉斯方法的的動(dòng)態(tài)COX回歸預(yù)后模型,研究表明使用LNR總體估計(jì)值的動(dòng)態(tài)COX回歸模型數(shù)據(jù)擬合效果較好,與其他模型相比,該模型對(duì)總體的生存率預(yù)測(cè)準(zhǔn)確度最高.盡管利用這些方法能較好的判斷乳腺癌患者的預(yù)后因素,但大多數(shù)研究?jī)H考慮了上述的影響因素,并沒有考慮到免疫細(xì)胞的浸潤(rùn)情況以及不同亞型對(duì)患者預(yù)后的影響.因此,本文利用了CIBEROST算法[7]和一致聚類方法[8],結(jié)合臨床生存數(shù)據(jù)對(duì)不同亞型的乳腺癌樣本進(jìn)行了預(yù)后分析,結(jié)果顯示不同的亞型對(duì)腫瘤預(yù)后有顯著的差異,說明運(yùn)用此方法具有一定的合理性,為臨床上乳腺癌患者的治療和預(yù)后提供理論依據(jù).

      1 數(shù)據(jù)來源及數(shù)據(jù)預(yù)處理

      數(shù)據(jù)主要來源于The Cancer Genome Atlas (TCGA)數(shù)據(jù)庫(kù),包括兩部分:① 乳腺癌轉(zhuǎn)錄組數(shù)據(jù), 1 100 個(gè)癌癥樣本和121個(gè)癌旁樣本;② 真實(shí)的乳腺癌患者臨床數(shù)據(jù)(部分?jǐn)?shù)據(jù)見表1).從https://www.nature.com/articles/nmeth.3337下載的由22種免疫細(xì)胞構(gòu)成的基因表達(dá)標(biāo)簽矩陣(LM22).在TCGA數(shù)據(jù)庫(kù)下載的乳腺癌數(shù)據(jù),是經(jīng)過FPKM標(biāo)準(zhǔn)化的,以此消除批次或文庫(kù)大小帶來的差異.

      (1)

      表1 部分臨床樣本數(shù)據(jù)表

      表1中,生存狀態(tài)0代表活著,1代表死亡;days_to_death表示完全數(shù)據(jù),是樣本從觀測(cè)的時(shí)間起到出現(xiàn)結(jié)局事件所經(jīng)歷的時(shí)間;造成截尾的原因有失訪、退出和終止,失訪和退出是在試驗(yàn)還沒有結(jié)束時(shí),研究者已經(jīng)追蹤不到數(shù)據(jù)了,終止是指研究已經(jīng)結(jié)束仍未觀察到樣本的結(jié)局.

      2 預(yù)測(cè)乳腺癌樣本中不同免疫細(xì)胞浸潤(rùn)比例

      目前,很多反卷積方法可用于預(yù)測(cè)復(fù)雜組織樣本中的細(xì)胞類型及比例信息[9-13].雖然這些方法在預(yù)測(cè)具有明確定義的樣本(例如血液)中不同細(xì)胞類型比例的準(zhǔn)確性較高,但是對(duì)于具有未知含量和含有噪聲的樣本(例如實(shí)體瘤)的預(yù)測(cè)效果卻不太好.而CIBERSORT[7]算法是一種基于線性支持向量回歸(SVR)且對(duì)噪聲具有高度魯棒性的機(jī)器學(xué)習(xí)方法,該算法在噪聲,未知混合物含量和密切相關(guān)的細(xì)胞類型方面都優(yōu)于其他方法.因此,本文采用CIBESORT算法來預(yù)測(cè)乳腺癌樣本中不同免疫細(xì)胞的比例.本文的總體研究路線如圖1(a)示,CIBERSORT算法具體流程策略如圖1(b)所示.

      CIBERSORT算法數(shù)學(xué)表示如下:

      Mij=∑rk=1SicFcj,

      (2)

      其中,Mij表示基因i在混合樣本j中的表達(dá)水平,是其在r細(xì)胞類型中的表達(dá)總和.Sik是標(biāo)簽矩陣(即LM22矩陣),表示基因i在免疫細(xì)胞中的基因表達(dá)水平.Fcj表示混合樣本j中細(xì)胞類型的比例,即為最終所需的結(jié)果.

      LM22稱為免疫細(xì)胞基因表達(dá)標(biāo)簽矩陣.它包含547個(gè)基因,可區(qū)分22種人類造血細(xì)胞表型.將 1 100 個(gè)乳腺癌樣本 (M)和LM22矩陣(S)數(shù)據(jù)作為CIBERSORT算法的輸入,最終可得到22種免疫細(xì)胞在乳腺癌樣本中所占的比例,從而量化了乳腺癌中參與應(yīng)答的細(xì)胞組成.部分免疫細(xì)胞的比例(%)如表2所示,其中對(duì)于每個(gè)腫瘤樣品,評(píng)估的22中免疫細(xì)胞所占的比例之和等于 1.22種不同免疫細(xì)胞在乳腺癌樣本中所占的比例(F)分布如圖2所示.

      表2 部分免疫細(xì)胞的比例數(shù)據(jù)

      由上圖可知,在 1 100個(gè)腫瘤樣本中,CD4幼稚T細(xì)胞、活化肥大細(xì)胞和嗜酸性粒細(xì)胞的比例較低,這些低比例的免疫細(xì)胞,能在預(yù)防疾病的進(jìn)展中起到重要作用,可作為乳腺癌風(fēng)險(xiǎn)的標(biāo)志物.而未分化的巨噬細(xì)胞所占的比例最大,其次是替代性活化巨噬細(xì)胞,表明巨噬細(xì)胞在乳腺癌組織中高表達(dá),這與臨床統(tǒng)計(jì)結(jié)果[14]一致,說明運(yùn)用CIBERSORT算法估計(jì)免疫細(xì)胞的比例具有一定的合理性.

      3 一致性聚類

      根據(jù)上述的免疫細(xì)胞比例,對(duì)樣本進(jìn)行聚類,將其分為不同的亞型,從而進(jìn)一步探討不同亞型對(duì)乳腺癌患者預(yù)后的影響.傳統(tǒng)的聚類方法需要預(yù)先給定一個(gè)聚類的數(shù)目,在比較不同聚類數(shù)目下的分類結(jié)果時(shí)沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)(比如K-means聚類),而且聚類的合理性和可靠性無法進(jìn)行驗(yàn)證.一致聚類[8]是一種無監(jiān)督聚類分析,通過基于重采樣的方法來驗(yàn)證聚類的合理性,其主要目的是評(píng)估聚類的穩(wěn)定性.在癌癥診斷中的預(yù)后分析和治療中具有潛在的高回報(bào).

      一致聚類又稱為共識(shí)聚類,在聚類算法多次運(yùn)行的過程中,保證了算法的一致性,以此來確定數(shù)據(jù)中的聚類數(shù)量,從而評(píng)估聚類方法的穩(wěn)定性.算法的過程如下.

      1) 首先輸入一個(gè)需要聚類的數(shù)據(jù)集D={e1,e2,…,eQ},聚類的目標(biāo)就是將觀察到的數(shù)據(jù)劃分為一組能夠列舉和非重疊的聚類.將D分為K簇的矩陣定義為V={V1,V2,…,VK},滿足

      ∪Ki=1VK=D

      (3)

      且Vi∩Vj=?,?i,j∈K,i≠j.同時(shí),還需選擇聚類算法,有K-means聚類、層次聚類、PAM聚類等方法,選擇重采樣方案,輸入重采樣循環(huán)次數(shù)H和聚類試驗(yàn)數(shù)目集合K.

      2) 選擇重采樣方案和聚類方法后,為了表示和量化聚類運(yùn)行對(duì)擾動(dòng)數(shù)據(jù)的一致性,定義一個(gè)Q×Q的連通矩陣.令D(1),D(2),…,D(H)是數(shù)據(jù)集D中通過重采樣獲得的H個(gè)擾動(dòng)數(shù)據(jù)集的列表.令R(h)表示對(duì)應(yīng)于數(shù)據(jù)集D(h)h次迭代的連通矩陣.最后會(huì)得到將數(shù)據(jù)集D(h)聚成K類的結(jié)果.連通矩陣定義如下:

      (4)

      生成H個(gè)擾動(dòng)集和一個(gè)連通矩陣R.

      3) 令I(lǐng)(h)為N×N指標(biāo)矩陣,使得如果i,j都屬于數(shù)據(jù)集D( h )時(shí),則(i,j)為1,否則為0.然后可以將連通矩陣R定義為所有擾動(dòng)數(shù)據(jù)集{D( h )∶h= 1,2,…,H}的共識(shí)矩陣的適當(dāng)歸一化的和:

      (5)

      4) 根據(jù)連通矩陣,定義IK為集群K的項(xiàng)的索引集,即IK={j∶ej∈K}. 定義一致矩陣TK:

      (6)

      也就是說屬于同一集群的所有項(xiàng)目對(duì)之間的平均共識(shí)指數(shù).生成K下的一致矩陣TK.

      5) 基于TK劃分樣本集合D進(jìn)入K個(gè)聚類中,最后返回劃分P和K下的一致矩陣TK.

      根據(jù)得到的Delta area圖,就可確定最佳的聚類數(shù)K值.

      本文使用R語言平臺(tái)(Windows系統(tǒng)3.6.1版本)下的Bioconductor生物信息分析軟件中的ConsensusClusterPlus軟件包對(duì)CIBEROSORT預(yù)測(cè)出的22×1 100比例矩陣進(jìn)行了一致聚類分析.在聚類過程中,采用蘭氏距離來確定樣本間的距離,公式如下[15]:

      (7)

      結(jié)果如圖3所示,當(dāng)K=4時(shí),其不同類別數(shù)之間的差異趨于平緩.因此,選擇K=4作為最佳分類結(jié)果,即可將 1 100 個(gè)乳腺癌樣本劃分成4種不同的亞型.

      4 預(yù)后分析

      預(yù)后分析是對(duì)疾病發(fā)病后發(fā)展為各種不同結(jié)局的預(yù)測(cè),根據(jù)疾病的不同亞型,結(jié)合臨床數(shù)據(jù),進(jìn)而判斷疾病的預(yù)后.預(yù)后分析有許多不同的評(píng)價(jià)指標(biāo)和方法,其中生存分析是預(yù)后研究中最常用的統(tǒng)計(jì)學(xué)方法.因此為了進(jìn)一步探討不同亞型對(duì)乳腺癌患者的預(yù)后影響,本文主要進(jìn)行生存分析.生存分析是研究影響因素對(duì)生存時(shí)間和結(jié)局關(guān)系的一種方法,生存概率是指某段時(shí)間開始時(shí)存活的樣本至該時(shí)間結(jié)束時(shí)仍然存活的可能性大小.生存概率可以表示為:

      (8)

      其中,P表示生存概率,A表示活過某段時(shí)間的人數(shù),G表示該時(shí)段初期觀察人數(shù).本文采用乘積極限法(Kaplan-Meier survival estimate, K-M法)對(duì)乳腺癌4種不同的亞型進(jìn)行生存分析,生存曲線如圖4所示.運(yùn)用對(duì)數(shù)秩檢驗(yàn)探究不同時(shí)期4種亞型的生存率差別是否有統(tǒng)計(jì)學(xué)意義.若P值<0.05,認(rèn)為多組總體生存曲線差異顯著,有統(tǒng)計(jì)學(xué)意義.

      由圖4可知,隨著隨訪時(shí)間的增加,生存率從1逐漸下降.Pattern 2這組的生存率大概達(dá)到55%趨于穩(wěn)定,且隨著隨訪時(shí)間的增加生存曲線比較平緩,說明Pattern 2這組有較高的生存率.Pattern 1和Pattern 3兩組相對(duì)于Pattern 2的生存率較低一些,說明Pattern 1和Pattern 3兩組都有較長(zhǎng)生存期,且Pattern 1的生存期比Pattern 3的要長(zhǎng).但是Pattern 4這組隨著隨訪時(shí)間的增加,生存率越來越低,生存曲線也越來越陡峭,說明Pattern 4這組的患者生存率較低.且p值(0.008 2)<0.05,表明4種不同亞型的總體生存曲線差異顯著,具有統(tǒng)計(jì)學(xué)意義.進(jìn)一步說明應(yīng)用一致聚類分析方法進(jìn)行亞型分類,研究乳腺癌患者的預(yù)后具有一定的合理性.

      5 結(jié)語

      本文主要針對(duì)不同亞型的腫瘤樣本對(duì)患者的預(yù)后影響展開研究.主要包括以下3方面的工作:① 首先利用CIBEROST算法預(yù)測(cè) 1 100 個(gè)乳腺癌腫瘤樣本中不同免疫細(xì)胞的浸潤(rùn)比例情況;② 然后根據(jù)免疫細(xì)胞的比例應(yīng)用一致聚類方法對(duì)腫瘤樣本進(jìn)行亞型分類,將樣本劃分為4種不同的亞型;③ 最后進(jìn)行預(yù)后分析,發(fā)現(xiàn)不同的亞型對(duì)乳腺癌患者的預(yù)后有顯著差異(p值為 0.008 2,小于0.05).研究表明本文應(yīng)用CIBERSORT算法和一致聚類方法,對(duì)不同亞型的患者進(jìn)行預(yù)后分析是合理的.因此臨床上正確鑒定不同乳腺癌亞型,對(duì)于后續(xù)的診斷和指導(dǎo)用藥具有重要的意義和價(jià)值.

      猜你喜歡
      亞型比例聚類
      人體比例知多少
      基于DBSACN聚類算法的XML文檔聚類
      按事故責(zé)任比例賠付
      紅土地(2016年7期)2016-02-27 15:05:54
      基于改進(jìn)的遺傳算法的模糊聚類算法
      Ikaros的3種亞型對(duì)人卵巢癌SKOV3細(xì)胞增殖的影響
      ABO亞型Bel06的分子生物學(xué)鑒定
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      限制支付比例只是治標(biāo)
      HeLa細(xì)胞中Zwint-1選擇剪接亞型v7的表達(dá)鑒定
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      马龙县| 志丹县| 日喀则市| 泉州市| 峡江县| 长沙市| 晋江市| 大丰市| 许昌县| 黄梅县| 英德市| 澄城县| 广河县| 秭归县| 嘉鱼县| 富阳市| 绍兴县| 涟源市| 乃东县| 嵩明县| 武鸣县| 巩留县| 昆山市| 雷山县| 玛曲县| 长泰县| 廊坊市| 无极县| 永济市| 临沭县| 商都县| 福贡县| 黄冈市| 江华| 信阳市| 娄烦县| 岑溪市| 昌图县| 贺兰县| 炎陵县| 封开县|