黃傳璽,馬潔,吳琛,朱云平
于TCGA數(shù)據(jù)預(yù)測腫瘤代表性新抗原的一種生物信息學(xué)新方案
黃傳璽1,3,馬潔2,3,吳琛1,朱云平2,3
1 河北大學(xué) 生命科學(xué)學(xué)院,河北 保定 071002 2 軍事科學(xué)院軍事醫(yī)學(xué)研究院生命組學(xué)研究所,北京 102206 3 蛋白質(zhì)組學(xué)國家重點(diǎn)實(shí)驗(yàn)室 國家蛋白質(zhì)科學(xué)中心(北京) 北京蛋白質(zhì)組研究中心 蛋白質(zhì)藥物國家工程研究中心,北京 102206
腫瘤的特異性基因突變是腫瘤免疫療法的理想靶標(biāo),突變的基因在健康組織中缺乏表達(dá),而且具有高度免疫原性,容易被免疫系統(tǒng)識別。腫瘤患者突變基因組的高度特異性使得個(gè)體化免疫治療存在極大挑戰(zhàn),而每一種腫瘤都具有區(qū)別于其他腫瘤的代表性的基因突變特征,基于這些突變特征,有可能開發(fā)出特定腫瘤適用的免疫治療策略。文中提出一個(gè)兼顧抗原胞內(nèi)呈遞和與胞外MHC分子結(jié)合能力的腫瘤新抗原預(yù)測策略,整體設(shè)計(jì)更為合理;相對于常規(guī)方法,能夠大幅縮小實(shí)驗(yàn)驗(yàn)證的范圍?;谠摬呗裕肨CGA數(shù)據(jù)庫中多種腫瘤的基因突變數(shù)據(jù)進(jìn)行腫瘤新抗原預(yù)測并預(yù)測到大量潛在的腫瘤新抗原。腫瘤新抗原的預(yù)測結(jié)果顯示出腫瘤類型的特異性,并且在特定腫瘤數(shù)據(jù)集中能夠覆蓋20%–70%不等比例的腫瘤患者。文中提出的腫瘤新抗原預(yù)測方案在未來的腫瘤臨床治療上具有潛在的應(yīng)用價(jià)值。
基因突變,免疫治療,腫瘤基因組圖譜數(shù)據(jù)庫,腫瘤新抗原
腫瘤的發(fā)生與發(fā)展伴隨著基因突變的產(chǎn)生與選擇[1-3]。腫瘤病變區(qū)域往往包含免疫細(xì)胞,這種免疫反應(yīng)在一定程度上反映了機(jī)體免疫系統(tǒng)根除腫瘤的嘗試,越來越多的證據(jù)也表明多種類型的腫瘤具有抗免疫反應(yīng)[4]。在腫瘤的治療過程中,現(xiàn)行的放療和化療方案不可避免地?fù)p傷正常人體細(xì)胞。對于部分靶向藥物,由于腫瘤細(xì)胞的高度異質(zhì)性及其基因組的不穩(wěn)定性,腫瘤細(xì)胞可以減少對特定功能通路的依賴,通過改變自身的部分性狀,從而產(chǎn)生獲得性耐藥[5]。免疫療法期望對患者免疫系統(tǒng)進(jìn)行重編程,提高自身免疫能力,從而發(fā)揮抗腫瘤作用,理論上有可能避免常規(guī)藥物療法帶來的抗藥性[6]。
腫瘤新抗原的尋找是免疫治療推進(jìn)過程中的重大挑戰(zhàn)[7-8]。腫瘤細(xì)胞產(chǎn)生的基因突變在健康組織中缺乏表達(dá),而且具有高度免疫原性,但從腫瘤細(xì)胞發(fā)生基因突變到可以被成熟T細(xì)胞譜系識別[9]需要經(jīng)歷復(fù)雜的生物學(xué)過程。即使突變基因產(chǎn)生了異常蛋白,但僅有部分水解后的肽段可以被呈遞到細(xì)胞表面并被免疫細(xì)胞所識別。因此,尋找正確有效的腫瘤新抗原是亟待解決的問題。目前已經(jīng)有大量的研究通過生物信息學(xué)方法,發(fā)展尋找腫瘤新抗原的新工具,并利用基因測序數(shù)據(jù)或質(zhì)譜數(shù)據(jù)預(yù)測具有治療效用的腫瘤新抗原,如Jurtz等發(fā)展的NetMHCpan工具[10]、Stranzl等發(fā)展的NetCTLpan工具[11]、Bais等發(fā)展的CloudNeo工具[12]等;Kreiter等利用NetMHCpan工具成功設(shè)計(jì)了特定腫瘤小鼠模型的免疫疫苗[7],Pritchard等利用腫瘤患者外周血細(xì)胞的基因突變數(shù)據(jù)篩選了個(gè)體化的免疫肽[13],這兩項(xiàng)研究的成果均取得了良好的應(yīng)用效果。
腫瘤患者的突變基因組高度特異[14],但每一種腫瘤都具有區(qū)別于其他腫瘤的代表性的基因突變特征,因此,有可能開發(fā)出針對部分人群適用的免疫治療策略。基于這種想法,文中提出了一種預(yù)測腫瘤代表性新抗原的生物信息學(xué)新方案,兼顧抗原在胞內(nèi)呈遞和與胞外組織相容性復(fù)合物(Major histocompatibility complex,MHC) 結(jié)合的能力,并利用腫瘤基因組圖譜數(shù)據(jù)庫(The Cancer Genome Atlas,TCGA,https://cancergenome.nih.gov/) 中的大規(guī)模腫瘤基因組測序數(shù)據(jù)[15],尋找腫瘤代表性新抗原,旨在為后續(xù)的研究提供可信的腫瘤新抗原參考列表。
基于基因突變產(chǎn)生腫瘤新抗原的過程可以概括如下:腫瘤細(xì)胞發(fā)生基因突變,突變基因被轉(zhuǎn)錄并翻譯出異常的蛋白質(zhì),異常蛋白質(zhì)的部分肽段被細(xì)胞選擇性呈遞到細(xì)胞表面從而被免疫系統(tǒng)識別。綜上,基于基因突變產(chǎn)生腫瘤新抗原呈遞的過程主要取決于以下幾個(gè)方面[16-19]:1) 突變基因能否翻譯成異常蛋白質(zhì);2) 基因突變產(chǎn)生的異常蛋白質(zhì)能否被蛋白酶體選擇性酶解;3) 酶解后的肽段能否被抗原加工相關(guān)轉(zhuǎn)運(yùn)體(Transporter associated with antigen processing,TAP) 選擇性轉(zhuǎn)運(yùn);4) 肽段與MHC分子結(jié)合并呈遞,呈遞后的抗原能否被T細(xì)胞所識別?;谏鲜鲞^程,文中構(gòu)建了兼顧抗原在胞內(nèi)呈遞和與胞外MHC分子結(jié)合的腫瘤新抗原的生物信息學(xué)預(yù)測流程,完整的工作流程如圖1所示。
在腫瘤新抗原預(yù)測流程中,通過聯(lián)用NetCTLpan和NetMHCpan兩個(gè)生物信息學(xué)軟件針對突變氨基酸序列進(jìn)行預(yù)測,從而兼顧MHCⅠ類抗原在胞內(nèi)呈遞和MHC與抗原胞外結(jié)合能力兩個(gè)關(guān)鍵過程。兩個(gè)軟件均采用人工神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)現(xiàn)有免疫抗原肽段序列特征,學(xué)習(xí)的數(shù)據(jù)集均來自高可信的免疫抗原數(shù)據(jù)庫(IEDB, http://www.iedb.org/home_v3.php;SYFPEITHI,http://www.syfpeithi.de/)。NetCTLpan軟件(https:// swissmodel.expasy.org/) 整合了人類MHCⅠ類分子與肽段結(jié)合能力、蛋白酶體C端選擇性剪切以及TAP轉(zhuǎn)運(yùn)效率3個(gè)方面的信息,對8–11個(gè)氨基酸長度的肽段能否被呈遞到MHC分子上進(jìn)行預(yù)測。該軟件考慮了異常蛋白質(zhì)在胞內(nèi)完整的呈遞過程[11]。NetMHCpan軟件 (http://www.cbs.dtu.dk/services/ NetMHCpan/) 用于預(yù)測已知序列的肽段與MHC分子的結(jié)合能力,與此同時(shí),該軟件方法整合了天然洗脫配體數(shù)據(jù),抗原與MHC分子結(jié)合親和力數(shù)據(jù)的信息,可以預(yù)測給定肽段成為天然配體的可能性以及與T細(xì)胞的結(jié)合親和能力[10]。
圖1 腫瘤新抗原生物信息學(xué)預(yù)測的工作流程
根據(jù)2018年中國癌癥中心發(fā)布的2014年中國不同地區(qū)惡性腫瘤發(fā)病和死亡分析報(bào)告[20],以及2018年美國癌癥協(xié)會(huì)發(fā)布的2014年美國癌癥發(fā)病率、死亡率和存活率的數(shù)據(jù)[21],選取以下7種發(fā)病率或復(fù)發(fā)率較高的癌癥作為研究對象,包括膀胱癌、乳腺癌、結(jié)腸癌、肝癌、胃癌及肺癌,其中肺癌的數(shù)據(jù)進(jìn)一步劃分為肺鱗狀細(xì)胞癌與肺腺癌兩類。測序數(shù)據(jù)均來源于TCGA中基因組測序數(shù)據(jù),突變基因?qū)?yīng)的氨基酸序列來自SwissPort數(shù)據(jù)庫(https://www.uniprot.org/, 序列下載日期為2018年11月)[22]?;蚪M參考序列為hg19,測序平臺為IlluminaGA或IlluminaHiSeq。基因突變數(shù)據(jù)信息如表1所示。更多信息見補(bǔ)充附件1 (可在網(wǎng)絡(luò)版中下載)。
基于構(gòu)建的腫瘤新抗原生物信息學(xué)預(yù)測流程,對7種腫瘤基因突變數(shù)據(jù)進(jìn)行統(tǒng)一處理。以乳腺癌為例,首先利用TCGA中基因突變數(shù)據(jù)篩選出非同義單點(diǎn)突變,然后將基因突變信息對應(yīng)到SwissProt數(shù)據(jù)庫特定氨基酸序列上,選擇HLA-A、HLA-B (Human leukocyte antigen,HLA)中翻譯產(chǎn)物與肽段結(jié)合能力排名前20的代表基因作為預(yù)測使用的等位基因,肽段長度限定為8–11個(gè)氨基酸。NetCTLpan軟件預(yù)測參數(shù)設(shè)置為:排序閾值≤1%、C端氨基酸殘基類別的權(quán)重占比為0.225、TAP轉(zhuǎn)運(yùn)效率權(quán)重占比為0.025。NetMHCpan軟件預(yù)測參數(shù)設(shè)置為:排序閾值≤2%。分別采用NetMHCpan與NetCTLpan對包含突變位點(diǎn)的肽段序列進(jìn)行預(yù)測;然后將NetMHCpan與NetCTLpan的輸出結(jié)果進(jìn)行整合,選取突變位點(diǎn)與呈遞序列在兩個(gè)軟件預(yù)測結(jié)果中重復(fù)出現(xiàn)的序列,此時(shí)得到的候選結(jié)果相當(dāng)于同時(shí)進(jìn)行了胞內(nèi)呈遞過程與胞外結(jié)合能力的預(yù)測。
統(tǒng)計(jì)各基因突變位點(diǎn)的突變頻率,基因突變頻率越低,提示該突變越可能是個(gè)體高度特異的突變,基因突變頻數(shù)越高,對應(yīng)的基因越可能與該腫瘤的發(fā)生與發(fā)展密切相關(guān)。因此,我們結(jié)合基因突變位點(diǎn)的突變頻數(shù)對上述結(jié)果進(jìn)行分析,過濾個(gè)體高度特異的突變序列(肺鱗狀癌數(shù)據(jù)量較小,以≥2為篩選標(biāo)準(zhǔn);肺腺癌數(shù)據(jù)量較大,以≥5為篩選標(biāo)準(zhǔn);其余腫瘤數(shù)據(jù)均以≥3為篩選標(biāo)準(zhǔn)),進(jìn)一步篩選得到的結(jié)果稱為候選腫瘤新抗原。
表1 TCGA中7種腫瘤數(shù)據(jù)相關(guān)信息統(tǒng)計(jì)及分析結(jié)果概覽
通過對預(yù)測獲得的候選腫瘤新抗原對應(yīng)的基因進(jìn)行功能注釋與通路分析,過濾非腫瘤因素引起的基因突變。候選腫瘤新抗原對應(yīng)的基因通過DAVID (https://david.ncifcrf.gov/home.jsp) 進(jìn)行包括細(xì)胞成分、代謝過程和生物學(xué)通路等方面的功能注釋[23]。最后,結(jié)合突變位點(diǎn)在腫瘤人群的覆蓋度、MHC結(jié)合位點(diǎn)數(shù)目兩方面的信息進(jìn)一步篩選出腫瘤代表性免疫肽段列表。采用SWISS- MODEL (https://swissmodel.expasy.org/) 進(jìn)行蛋白質(zhì)三維結(jié)構(gòu)模擬,展示突變帶來的構(gòu)象變化[24],對結(jié)果進(jìn)行進(jìn)一步驗(yàn)證。
在腫瘤的發(fā)生與發(fā)展過程中,為獲得生存優(yōu)勢,腫瘤細(xì)胞產(chǎn)生了部分候選優(yōu)勢突變[25],由于抗原呈遞過程涉及復(fù)雜的生物學(xué)過程,基因突變引起的異常蛋白在抗原呈遞過程中可能存在不同的結(jié)果,從而給腫瘤新抗原的實(shí)驗(yàn)篩選帶來大量重復(fù)性工作以及高額的經(jīng)濟(jì)成本。文中構(gòu)建了腫瘤新抗原新的預(yù)測策略,并利用TCGA中7種腫瘤突變數(shù)據(jù)進(jìn)行腫瘤新抗原的預(yù)測,共計(jì)382 170 560條氨基酸序列參與了腫瘤新抗原的預(yù)測?;趦煽钴浖念A(yù)測結(jié)果,選取基因突變位點(diǎn)相同、序列信息相同的肽段作為候選腫瘤新抗原列表,完整的候選腫瘤新抗原列表見補(bǔ)充附件2 (可在網(wǎng)絡(luò)版中下載),詳細(xì)結(jié)果統(tǒng)計(jì)信息如表1和圖2所示。
基于兼顧胞內(nèi)呈遞和與胞外MHC分子結(jié)合的腫瘤新抗原生物信息學(xué)預(yù)測流程,膀胱癌突變數(shù)據(jù)通過NetMHCpan和NetCTLpan軟件預(yù)測,分別獲得1 924條和782條序列結(jié)果,取兩者交集獲得最終候選腫瘤新抗原列表,共698條,對應(yīng)92個(gè)基因。肺腺癌、結(jié)腸癌、乳腺癌、肺鱗狀細(xì)胞癌、胃癌、肝癌數(shù)據(jù)集分別獲得6 460條、1 314條、1 021條、704條、436條和245條候選腫瘤新抗原,對應(yīng)640個(gè)、208個(gè)、121個(gè)、65個(gè)、59個(gè)和25個(gè)基因。如圖2A和圖2B所示,通過預(yù)測流程,95.0%以上腫瘤患者高度特異性的突變位點(diǎn)及99.9%以上包含個(gè)體高度特異突變位點(diǎn)的氨基酸序列可以被排除,極大減少了實(shí)驗(yàn)驗(yàn)證的工作量與經(jīng)濟(jì)成本。從理論預(yù)測的結(jié)果來看,胞內(nèi)免疫肽的多個(gè)呈遞過程對最終的結(jié)果影響巨大(圖2C)。
目前,NetMHCpan是最常用的腫瘤新抗原預(yù)測工具,但NetMHCpan的預(yù)測原理僅關(guān)注胞外MHC分子與相關(guān)肽段的親和能力,以及其形成的復(fù)合體與T細(xì)胞受體的結(jié)合能力,忽略了肽段在胞內(nèi)的一系列處理過程,這也是兩款軟件預(yù)測結(jié)果重疊性不高的原因。如肝癌、結(jié)腸癌、肺腺癌數(shù)據(jù)集結(jié)果所示,通過文中提出的兼顧抗原胞內(nèi)呈遞和與胞外MHC分子結(jié)合信息的腫瘤新抗原篩選流程,有效整合兩個(gè)軟件的預(yù)測結(jié)果,可以得到更為準(zhǔn)確的腫瘤新抗原候選結(jié)果驗(yàn)證區(qū)間。如圖2D所示,即使兩個(gè)軟件的整合結(jié)果排除了大部分NetMHCpan的預(yù)測結(jié)果,但得到的腫瘤新抗原列表仍然在腫瘤患者中占有相當(dāng)?shù)谋嚷剩M(jìn)一步佐證了數(shù)據(jù)挖掘的可靠性。
基因功能的重要程度與其轉(zhuǎn)錄翻譯的頻率呈正相關(guān)趨勢,那么基因的突變頻率將與其功能的重要程度密切相關(guān)[26-27]。如表2所示,以膀胱癌和結(jié)腸癌為例,展示了候選腫瘤新抗原列表中突變頻率排名前5位的位點(diǎn)及其相關(guān)信息??梢钥吹竭@些突變位點(diǎn)對應(yīng)的基因在前人的工作中已被證明與腫瘤的發(fā)生與發(fā)展密切相關(guān)[28-34]。
針對每一種癌癥,人群中普遍存在的突變往往在維持腫瘤生存能力方面具有重大的影響[35]?;诤蜻x肽段涉及的基因,對除肝癌(肝癌數(shù)據(jù)集得到的候選肽段僅對應(yīng)25個(gè)基因,數(shù)量過少,未進(jìn)行分析)以外的6種腫瘤關(guān)聯(lián)的基因進(jìn)行了功能富集分析,以膀胱癌基因突變數(shù)據(jù)為例,候選腫瘤新抗原肽段分布在92個(gè)基因上,這些基因功能富集結(jié)果如圖3所示,其他腫瘤數(shù)據(jù)功能富集信息見補(bǔ)充附件3 (可在網(wǎng)絡(luò)版中下載)。通路富集結(jié)果與基因條目注釋結(jié)果均顯示這些基因所涉及的通路與生物學(xué)過程與癌癥密切相關(guān),并反映了人體生理學(xué)變化,如血小板激活、焦點(diǎn)粘連、癌癥的核心碳代謝、血管內(nèi)皮生長因子通路、癌癥的蛋白聚糖等,進(jìn)一步佐證了預(yù)測流程的可靠性。
圖2 TCGA數(shù)據(jù)庫中7種腫瘤基因突變數(shù)據(jù)的生物信息學(xué)預(yù)測結(jié)果
表2 膀胱癌與結(jié)腸癌數(shù)據(jù)集中突變頻率排名前5位的位點(diǎn)及其相關(guān)信息
圖3 膀胱癌數(shù)據(jù)集候選免疫肽段對應(yīng)基因的功能富集分析
同時(shí),不同癌癥數(shù)據(jù)集的預(yù)測結(jié)果中可以觀察到與特定癌癥相關(guān)的功能通路明顯富集,顯示出腫瘤類型的特異性,這可能為特定癌癥的治療提示新的方向。以膀胱癌數(shù)據(jù)集為例,其分析結(jié)果中血小板激活通路顯著富集,原因可能有以下兩個(gè):1) 血小板對腫瘤細(xì)胞的促進(jìn)作用。有研究表示,血小板數(shù)量和活性的增加與腫瘤轉(zhuǎn)移相關(guān),血小板可以通過促進(jìn)免疫逃避、血管生成來參與腫瘤轉(zhuǎn)移過程[36]。體內(nèi)外實(shí)驗(yàn)證明,腫瘤細(xì)胞能將突變的RNA轉(zhuǎn)入血小板中。研究者從神經(jīng)膠質(zhì)瘤和前列腺癌患者的血小板中發(fā)現(xiàn)了癌癥相關(guān)的RNA生物標(biāo)記物,如等[37]。血小板還能夠捕獲和激活,從而輔助侵襲性腫瘤細(xì)胞抑制T細(xì)胞的生物學(xué)功能[38]。2) 參與凝血過程。參與血液循環(huán)中的凝血過程是血小板重要的生理功能之一,而約80%?90%的膀胱癌患者伴有血尿的癥狀。血小板數(shù)量及活性的增加可能歸因于血尿的出現(xiàn),也有可能與術(shù)后復(fù)高發(fā)率[39]的現(xiàn)象有所關(guān)聯(lián)。
此外,在乳腺癌數(shù)據(jù)結(jié)果中核心碳代謝通路、蛋白聚糖通路相對活躍;結(jié)腸癌數(shù)據(jù)結(jié)果中,血管生成信號通路、鞘脂信號通路相對活躍;胃癌數(shù)據(jù)結(jié)果中致病性大腸桿菌感染與細(xì)菌侵襲上皮細(xì)胞、蛋白聚糖出現(xiàn)基因富集現(xiàn)象;肺鱗狀細(xì)胞癌數(shù)據(jù)結(jié)果中,信號通路、信號通路明顯富集。有意思的是在兩種肺癌數(shù)據(jù)中(肺腺癌、肺鱗狀細(xì)胞癌),均發(fā)現(xiàn)大量嗅覺轉(zhuǎn)導(dǎo)密切相關(guān)的基因發(fā)生突變,雖然這些基因突變頻率不高,但總體數(shù)目較多,這提示這些基因在肺癌患者中可能介導(dǎo)著其他的生理作用。同時(shí),癌癥相關(guān)的蛋白聚糖、鞘脂信號等通路在多種腫瘤數(shù)據(jù)集的分析結(jié)果中反復(fù)出現(xiàn),提示涉及這些通路的治療方案有可能對多種癌癥都具有治療效果。
兩種軟件理論預(yù)測的結(jié)果經(jīng)過整合,候選腫瘤新抗原的數(shù)量與比例已經(jīng)大幅減少,但其絕對數(shù)目仍然較大,進(jìn)行候選新抗原實(shí)驗(yàn)驗(yàn)證依然存在挑戰(zhàn)。因此,結(jié)合突變位點(diǎn)的頻率、突變位點(diǎn)在人群中的占比以及HLA涉及的等位基因數(shù)目3個(gè)指標(biāo)作為主要評價(jià)標(biāo)準(zhǔn),進(jìn)一步篩選出每種腫瘤預(yù)測結(jié)果中排名前20的候選腫瘤新抗原,這些候選腫瘤新抗原被認(rèn)為是高可信的結(jié)果,詳細(xì)信息參見補(bǔ)充附件4 (可在網(wǎng)絡(luò)版中下載)。
基因突變可以通過對蛋白質(zhì)三維結(jié)構(gòu)產(chǎn)生影響進(jìn)而調(diào)控相關(guān)的生物學(xué)功能,最終促進(jìn)腫瘤的發(fā)生與發(fā)展。結(jié)構(gòu)異常的蛋白質(zhì)相對于胞內(nèi)其他蛋白是新蛋白,具有相對高的免疫原性,異常蛋白被降解后形成的肽段被呈遞在細(xì)胞表面的幾率較高。采用SWISS-MODEL對預(yù)測結(jié)果進(jìn)行三維蛋白質(zhì)結(jié)構(gòu)模擬,可以進(jìn)一步確認(rèn)預(yù)測結(jié)果是否與上述假設(shè)相符合。如圖4所示,TP53蛋白的第175個(gè)氨基酸位點(diǎn)和PIK3CA蛋白的第542、545個(gè)氨基酸位點(diǎn)由正常狀態(tài)到發(fā)生突變后,其結(jié)構(gòu)模擬示意圖差別明顯。TP53蛋白175氨基酸位點(diǎn)發(fā)生突變后,該區(qū)域由原來的開放式結(jié)構(gòu)轉(zhuǎn)變?yōu)榱谁h(huán)形結(jié)構(gòu),這可能是腫瘤患者體內(nèi)P53蛋白抑癌功能缺失的部分原因。PIK3CA蛋白的第542、545個(gè)氨基酸位點(diǎn)發(fā)生突變后,該位點(diǎn)由原來利于結(jié)合的構(gòu)象轉(zhuǎn)為不利于結(jié)合的構(gòu)象,提示PIK3CA蛋白催化下游底物的效率可能減弱,腫瘤細(xì)胞信號調(diào)節(jié)受到影響,進(jìn)而影響細(xì)胞生命活動(dòng)。
基因突變?yōu)槟[瘤細(xì)胞提供了進(jìn)化的來源[3],某些突變基因型賦予細(xì)胞亞克隆選擇性優(yōu)勢,使其在局部組織環(huán)境中生長并最終占優(yōu)勢[40]?;蛲蛔兘o腫瘤細(xì)胞提供了生存的基礎(chǔ),也給腫瘤治療帶來了新的治療靶點(diǎn)。近年來,腫瘤免疫治療如火如荼地開展,但現(xiàn)階段免疫治療僅對20%–30%的患者有明顯療效。令人欣慰的是,這個(gè)領(lǐng)域還在以方興未艾的態(tài)勢發(fā)展[41-43]。2018年,來自美國MD安德森癌癥研究中心的Allison和日本京都大學(xué)的Tasuku關(guān)于負(fù)性免疫調(diào)節(jié)治療癌癥的療法榮獲諾貝爾生理學(xué)獎(jiǎng),進(jìn)一步推動(dòng)免疫治療的研究。雖然目前確認(rèn)有效的腫瘤抗原位點(diǎn)有限[44-46],但腫瘤疫苗的研究仍不斷取得新的進(jìn)展。
圖4 蛋白TP53和PIK3CA氨基酸位點(diǎn)突變引起的蛋白質(zhì)三維結(jié)構(gòu)變化的模擬示意圖
Teku等于2018年使用NetMHCpan 4.0對30種癌癥的蛋白質(zhì)組數(shù)據(jù)進(jìn)行了分析,其分析結(jié)果顯示,單一的NetMHCpan預(yù)測并不合理[8]。肽段與HLA分子的緊密結(jié)合是引發(fā)免疫反應(yīng)的必要不充分條件,實(shí)際生物學(xué)過程中,蛋白酶體和其他蛋白酶對抗原呈遞細(xì)胞中前體蛋白的加工、TAP復(fù)合物將肽段從胞質(zhì)轉(zhuǎn)運(yùn)至內(nèi)質(zhì)網(wǎng)的效率都將影響抗原呈遞的結(jié)果。本文將NetCTLpan與NetMHCpan工具結(jié)合,構(gòu)建了腫瘤新抗原預(yù)測的生物信息學(xué)策略,充分考慮了突變產(chǎn)生的新肽段在胞內(nèi)的及胞外的呈遞過程,數(shù)據(jù)分析流程的設(shè)計(jì)更為合理,預(yù)測的免疫肽組合可以覆蓋相當(dāng)比例的人群。如圖5所示,應(yīng)用新的腫瘤新抗原生物信息學(xué)流程分析結(jié)腸癌、膀胱癌、肺鱗狀細(xì)胞癌、乳腺癌、肝癌、胃癌和肺腺癌數(shù)據(jù)集,預(yù)測得到的候選腫瘤新抗原組合分別可以覆蓋各個(gè)數(shù)據(jù)集71.76%、40.66%、33.52%、33.23%、29.22%、27.97%和22.28%的腫瘤患者。
此外,在7種癌癥數(shù)據(jù)集最終預(yù)測結(jié)果中,我們還發(fā)現(xiàn)了部分基因在腫瘤中普遍發(fā)生基因突變,這些基因有可能在多種癌癥的免疫治療中產(chǎn)生效果,如(7/7) 與(5/7) 以及部分鋅指蛋白基因等。其中TP53蛋白的第175個(gè)氨基酸位點(diǎn)突變形式在4種癌癥中都出現(xiàn),該突變位點(diǎn)在人群中的占比分別為6.91% (結(jié)腸癌)、2.90% (胃癌)、2.14% (乳腺癌) 和1.68%(肺鱗狀細(xì)胞癌)。在175位點(diǎn)附近,176/163/157等位點(diǎn)的突變在人群中也占有一定頻率。PIK3CA蛋白的第545 (7/7)、542 (5/7) 氨基酸位點(diǎn)在7種癌癥中也頻繁出現(xiàn),兩個(gè)位點(diǎn)共占比例為11.41% (乳腺癌)、11.36% (膀胱癌)、8.76% (結(jié)腸癌)、7.30%(肺鱗狀細(xì)胞癌)、2.90% (胃癌) 和2.39% (肺腺癌)。除了上述基因之外,我們還發(fā)現(xiàn)了一批僅在特定腫瘤中常見的突變。如僅在結(jié)腸癌與肺腺癌中突變頻率較高的基因突變、膀胱癌中突變頻率最高的基因突變、結(jié)腸癌中突變頻率較高的、基因突變等等在其他幾種癌癥中幾乎未發(fā)現(xiàn)?;蛲蛔兊倪x擇性提示我們由于機(jī)體器官組成的規(guī)律不同,不同器官形成腫瘤后,腫瘤細(xì)胞的功能需求可能不同。
圖5 不同癌癥數(shù)據(jù)集中排名前20的候選腫瘤新抗原肽段在患者樣本中的累積覆蓋度
文中構(gòu)建的腫瘤新抗原新的預(yù)測策略雖然考慮了更多的生物學(xué)過程,但每個(gè)預(yù)測過程相對獨(dú)立,仍存在較大的改進(jìn)空間。此外,預(yù)測策略分析TCGA數(shù)據(jù)獲得了部分腫瘤新抗原,但不是所有MHC呈遞的抗原都能引起免疫反應(yīng),腫瘤新抗原具有高免疫原性,但免疫耐受的現(xiàn)象仍可能存在,文中提到的不同腫瘤新抗原組合有可能改善這一情況。同時(shí),由于預(yù)測工具本身可能存在一定程度的假陽性和假陰性結(jié)果,后續(xù)分子實(shí)驗(yàn)驗(yàn)證、動(dòng)物模型驗(yàn)證、臨床實(shí)驗(yàn)仍是必不可少的部分。因此,從腫瘤新抗原的預(yù)測到實(shí)際的臨床應(yīng)用仍然道阻且長,免疫治療的進(jìn)展需要多個(gè)領(lǐng)域的研究人員共同推進(jìn)。
綜上,文中構(gòu)建了兼顧抗原在胞內(nèi)呈遞和與胞外組織相容性復(fù)合物結(jié)合能力的腫瘤新抗原新的預(yù)測策略,有望大幅減少實(shí)驗(yàn)工作量,同時(shí)也為后續(xù)研究者提供了一個(gè)有參考價(jià)值的數(shù)據(jù)分析流程。應(yīng)用該策略系統(tǒng)分析了TCGA中多種腫瘤基因組測序數(shù)據(jù),得到了一批可靠度較高的腫瘤新抗原;與此同時(shí),最終預(yù)測的部分MHCⅠ類腫瘤新抗原組合在人群中占有一定的覆蓋度,存在潛在的臨床應(yīng)用價(jià)值。
[1] Greenman C, Stephens P, Smith R, et al. Patterns of somatic mutation in human cancer genomes. Nature, 2007, 446(7132): 153–158.
[2] Salk JJ, Fox EJ, Loeb LA. Mutational heterogeneity in human cancers: origin and consequences. Annu Rev Pathol, 2010, 5: 51–75.
[3] Stratton MR, Campbell PJ, Futreal PA. The cancer genome. Nature, 2009, 458(7239): 719–724.
[4] Pagès F, Galon J, Dieu-Nosjean MC, et al. Immune infiltration in human tumors: a prognostic factor that should not be ignored. Oncogene, 2010, 29(8): 1093–1102.
[5] Hanahan D, Weinberg RA. Hallmarks of cancer: the next generation. Cell, 2011, 144(5): 646–674.
[6] Zhang Y. Chin J Biochem Mol Biol, 2018, 34(11): 1135–1137 (in Chinese). 張毓. 開啟腫瘤治療的新時(shí)代——2018年諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)評介. 中國生物化學(xué)與分子生物學(xué)報(bào), 2018, 34(11): 1135–1137.
[7] Kreiter S, Vormehr M, van de Roemer N, et al. Mutant MHC class II epitopes drive therapeutic immune responses to cancer. Nature, 2015, 520(7549): 692–696.
[8] Teku GN, Vihinen M. Pan-cancer analysis of neoepitopes. Sci Rep, 2018, 8: 12735.
[9] Yadav M, Jhunjhunwala S, Phung QT, et al. Predicting immunogenic tumour mutations by combining mass spectrometry and exome sequencing. Nature, 2014, 515(7528): 572–576.
[10] Jurtz V, Paul S, Andreatta M, et al. NetMHCpan-4.0: improved peptide-MHC class I interaction predictions integrating eluted ligand and peptide binding affinity data. J Immunol, 2017, 199(9): 3360–3368.
[11] Stranzl T, Larsen MV, Lundegaard C, et al. NetCTLpan: pan-specific MHC class I pathway epitope predictions. Immunogenetics, 2010, 62(6): 357–368.
[12] Bais P, Namburi S, Gatti DM, et al. CloudNeo: a cloud pipeline for identifying patient-specific tumor neoantigens. Bioinformatics, 2017, 33(19): 3110–3112.
[13] Pritchard AL, Burel JG, Neller MA, et al. Exome sequencing to predict neoantigens in melanoma. Cancer Immunol Res, 2015, 3(9): 992–998.
[14] Negrini S, Gorgoulis VG, Halazonetis TD. Genomic instability--an evolving hallmark of cancer. Nat Rev Mol Cell Biol, 2010, 11(3): 220–228.
[15] The Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, et al. The cancer genome atlas pan-cancer analysis project. Nat Genet, 2013, 45(10): 1113–1120.
[16] Gao H, Han Y, Zhai XX, et al. The research progress of antigen presentation by MHC molecules. Chin Bull Life Sci, 2017, 29(5): 450–461 (in Chinese). 高花, 韓勇, 翟曉鑫, 等. MHC分子抗原遞呈機(jī)制的研究進(jìn)展. 生命科學(xué), 2017, 29(5): 450–461.
[17] Tenzer S, Peters B, Bulik S, et al. Modeling the MHC class I pathway by combining predictions of proteasomal cleavage, TAP transport and MHC class I binding. Cell Mol Life Sci, 2005, 62(9): 1025–1037.
[18] Paul S, Weiskopf D, Angelo MA, et al. HLA class I alleles are associated with peptide-binding repertoires of different size, affinity, and immunogenicity. J Immunol, 2013, 191(12): 5831–5839.
[19] Larsen MV, Lundegaard C, Lamberth K, et al. Large-scale validation of methods for cytotoxic T-lymphocyte epitope prediction. BMC Bioinf, 2007, 8: 424.
[20] Chen WQ, Sun KX, Zheng RS, et al. Report of cancer incidence and mortality in different areas of China, 2014. China Cancer, 2018, 27(1): 1–14 (in Chinese).陳萬青, 孫可欣, 鄭榮壽, 等. 2014年中國分地區(qū)惡性腫瘤發(fā)病和死亡分析. 中國腫瘤, 2018, 27(1): 1–14.
[21] Siegel RL, Miller KD, Jemal A. Cancer statistics, 2018. Cancer J Clin, 2018, 68(1): 7–30.
[22] The UniProt Consortium. UniProt: the universal protein knowledgebase. Nucleic Acids Res, 2018, 46(5): 2699.
[23] Jiao XL, Sherman BT, Huang DW, et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics, 2012, 28(13): 1805–1806.
[24] Waterhouse A, Bertoni M, Bienert S, et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Res, 2018, 46(W1): W296–W303.
[25] Zheng X. Significance of mutanome in tumor immunotherapy. Chin J Cancer Biother, 2015, 22(6): 794–798 (in Chinese). 鄭曉. 腫瘤基因突變組學(xué)在腫瘤免疫治療中的意義. 中國腫瘤生物治療雜志, 2015, 22(6): 794–798.
[26] Martincorena I, Seshasayee ASN, Luscombe NM. Evidence of non-random mutation rates suggests an evolutionary risk management strategy. Nature, 2012, 485(7396): 95–98.
[27] Baugh EH, Ke H, Levine AJ, et al. Why are there hotspot mutations in the TP53 gene in human cancers? Cell Death Differ, 2018, 25(1): 154–160.
[28] Cao W, Ma EG, Zhou L, et al. Exploring the FGFR3-related oncogenic mechanism in bladder cancer using bioinformatics strategy. World J Surg Oncol, 2017, 15: 66.
[29] Koundouros N, Poulogiannis G. Phosphoinositide 3-kinase/akt signaling and redox metabolism in cancer. Front Oncol, 2018, 8: 160.
[30] Ma DX, Yang JY, Wang Y, et al. Whole exome sequencing identified genetic variations in Chinese hemangioblastoma patients. Am J Med Genet A, 2017, 173(10): 2605–2613.
[31] Mishra A, Brat DJ, Verma M. P53 tumor suppression network in cancer epigenetics. Methods Mol Biol. 2015, 1238: 597–605.
[32] Marranci A, Jiang Z, Vitiello M, et al. The landscape oftranscript and protein variants in human cancer. Mol Cancer, 2017, 16: 85.
[33] Kawada K, Toda K, Sakai Y. Targeting metabolic reprogramming in KRAS-driven cancers. Int J Clin Oncol, 2017, 22(4): 651–659.
[34] van Vlodrop IJH, Joosten SC, de Meyer T, et al. A four-gene promoter methylation marker panel consisting of,,, andpredicts survival of clear cell renal cell cancer patients. Clin Cancer Res, 2017, 23(8): 2006–2018.
[35] Castle JC, Kreiter S, Diekmann J, et al. Exploiting the mutanome for tumor vaccination. Cancer Res, 2012, 72(5): 1081–1091.
[36] Jia J. Functions of platelets in tumor growth and metastasis. J Int Oncol, 2013, 18(11): 1033–1036 (in Chinese). 賈靜. 血小板在腫瘤轉(zhuǎn)移中的作用. 臨床腫瘤學(xué)雜志, 2013, 18(11): 1033–1036.
[37] Joosse SA, Pantel K. Tumor-educated platelets as liquid biopsy in cancer patients. Cancer Cell, 2015, 28(5): 552–554.
[38] Rachidi S, Metelli A, Riesenberg B, et al. Platelets subvert T cell immunity against cancer via GARP-TGFβ axis. Sci Immunol, 2017, 2(11): eaai7911.
[39] Kamat AM, Hahn NM, Efstathiou JA, et al. Bladder cancer. Lancet, 2016, 388(10061): 2796–2810.
[40] Cleary AS. Teamwork: The tumor cell edition. Science, 2015, 350(6265): 1174–1175.
[41] Le DT, Hubbard-Lucey VM, Morse MA, et al. A blueprint to advance colorectal cancer immunotherapies. Cancer Immunol Res, 2017, 5(11): 942–949.
[42] O’Donnell TJ, Rubinsteyn A, Bonsack M, et al. MHCflurry: open-source class I MHC binding affinity prediction. Cell Syst, 2018, 7(1): 129–132.
[43] Boegel S, L?wer M, Bukur T, et al. A catalog of HLA type, HLA expression, and neo-epitope candidates in human cancer cell lines. Oncoimmunology, 2014, 3(8): e954893.
[44] Park TS, Rosenberg SA, Morgan RA. Treating cancer with genetically engineered T cells. Trends Biotechnol, 2011, 29(11): 550–557.
[45] Porter DL, Levine BL, Kalos M, et al. Chimeric antigen receptor-modified T cells in chronic lymphoid leukemia. N Engl J Med, 2011, 365(8): 725–733.
[46] Lee DW, Kochenderfer JN, Stetler-Stevenson M, et al. T cells expressing CD19 chimeric antigen receptors for acute lymphoblastic leukaemia in children and young adults: a phase 1 dose-escalation trial. Lancet, 2015, 385(9967): 517–528.
A new bioinformatics approach for prediction of potential tumor neoantigens based on the cancer genome atlas dataset
Chuanxi Huang1, 3, Jie Ma2, 3, Chen Wu1, and Yunping Zhu2, 3
1 College of Life Sciences, Hebei University, Baoding 071002, Hebei, China 2 Beijing Institute of Life Omics, Beijing 102206, China 3 State Key Laboratory of Proteomics, Beijing Proteome Research Center, National Center for Protein Sciences (Beijing), Beijing 102206, China
Tumor-specific gene mutations might generate suitable neoepitopes for cancer immunotherapy that are highly immunogenic and absent in normal tissues. The high heterogeneity of the tumor genome poses a big challenge for precision cancer immunotherapy. Mutations characteristic of each tumor can help to distinguish it from other tumors. Based on these mutations’ characteristic, it is possible to develop immunotherapeutic strategies for specific tumors. In this study, a tumor neoantigen prediction scheme was proposed, in which both the intracellular antigen presentation process and the ability to bind with extracellular MHC molecule were taken into consideration. The overall design is meritorious and may help reduce the cost for validation experiments compared with conventional methods. This strategy was tested with several cancer genome datasets in the TCGA database, and a number of potential tumor neoantigens were predicted for each dataset. These predicted neoantigens showed tumor type specificity and were found in 20% to 70% of cancer patients. This scheme might prove useful clinically in future.
gene mutation, immunotherapy, the cancer genome atlas (TCGA), tumor neoantigen
January 12, 2019;
March 25, 2019
National Key Research and Development Program of China (Nos. 2017YFC0906600, 2016YFC0901701, 2016YFB0201702).
s:Yunping Zhu. Tel: +86-10-61777058; E-mail: zhuyunping@gmail.com Chen Wu. E-mail: dawnwuchen@163.com
國家重點(diǎn)研發(fā)計(jì)劃(Nos. 2017YFC0906600,2016YFC0901701,2016YFB0201702) 資助。
2019-04-02
http://kns.cnki.net/kcms/detail/11.1998.q.20190401.1318.001.html
黃傳璽, 馬潔, 吳琛, 等. 基于TCGA數(shù)據(jù)預(yù)測腫瘤代表性新抗原的一種生物信息學(xué)新方案. 生物工程學(xué)報(bào), 2019, 35(7): 1295–1306.
Huang CX, Ma J, Wu C, et al. A new bioinformatics approach for prediction of potential tumor neoantigens based on the cancer genome atlas dataset. Chin J Biotech, 2019, 35(7): 1295–1306.
(本文責(zé)編 陳宏宇)