裴智勇
腫瘤是嚴(yán)重威脅人類健康的疾病之一。在對腫瘤長達(dá)一個世紀(jì)的研究中,人們逐漸將它定義為“基因組疾病”,即腫瘤是腫瘤細(xì)胞基因組中變異不斷累積的結(jié)果[1]。按功能可將導(dǎo)致腫瘤發(fā)生的基因分為原癌基因和抑癌基因。腫瘤細(xì)胞通過原癌基因激活或抑癌基因失活而獲得無限增殖能力。影響這些基因正常功能的主要突變包括單堿基突變(single-base substitutions)、小片段插入與缺失(small insertions and deletions)、拷貝數(shù)變異(copy number variation,CNV)、序列重排(rearrangement),以及其他復(fù)雜變異如Kataegis模式、染色體碎裂(chromothripsis)、Chromoplexy等,這些突變亦被證實可導(dǎo)致腫瘤發(fā)生(圖1)[2]。在腫瘤的發(fā)生發(fā)展過程中,這些基因組突變通過表觀修飾、轉(zhuǎn)錄、轉(zhuǎn)錄后調(diào)控、翻譯等生物學(xué)過程而在不同水平的細(xì)胞活動中相互影響,形成多維度、高相關(guān)的動態(tài)網(wǎng)絡(luò)。
在腫瘤細(xì)胞變異中,僅有小部分在腫瘤發(fā)生發(fā)展中發(fā)揮重要作用,這些變異被稱為驅(qū)動突變(driver mutation)。驅(qū)動突變可賦予腫瘤細(xì)胞選擇優(yōu)勢,如提高細(xì)胞分裂能力、使細(xì)胞逃避調(diào)亡、逃避生長負(fù)調(diào)控機(jī)制等。靶向治療是以這些關(guān)鍵變異作為靶標(biāo)進(jìn)行治療,因此鑒定腫瘤驅(qū)動基因是靶向治療的基礎(chǔ)。過去對驅(qū)動基因的鑒定主要根據(jù)對基因的認(rèn)識進(jìn)行判斷,而基因組學(xué)、表觀組學(xué)、轉(zhuǎn)錄組學(xué)等多種組學(xué)的應(yīng)用,特別是近年單細(xì)胞測序技術(shù)、三代測序技術(shù)等的出現(xiàn),以及大數(shù)據(jù)挖掘、人工智能等領(lǐng)域與腫瘤組學(xué)的結(jié)合,使驅(qū)動基因的鑒定向更系統(tǒng)、更全面的方向發(fā)展。
圖1 腫瘤基因組中常見的變異形式
所有腫瘤在其發(fā)展過程中均會不斷積累各種類型突變,基因組測序可提供腫瘤基因組精確到單堿基水平的突變信息,還可提供結(jié)構(gòu)變異信息,確定結(jié)構(gòu)變異斷點,如有研究發(fā)現(xiàn)肝硬化較正常肝臟具有更高突變負(fù)荷,結(jié)構(gòu)變異在肝硬化中極為突出[3]。新西蘭一個研究團(tuán)隊在大型轉(zhuǎn)移性實體瘤全基因組的泛癌研究中利用全基因組測序(whole genome sequencing,WGS),揭示了22種轉(zhuǎn)移性實體瘤的全基因組變化特征,這些特征性突變可以反映原發(fā)腫瘤的類型,以及單個轉(zhuǎn)移性腫瘤中96%的驅(qū)動基因突變?yōu)榭寺⌒裕?0%的腫瘤抑制基因可通過不同的突變機(jī)制進(jìn)行雙等位失活[4]。LEE-SIX 等[5]分析數(shù)百個正常樣本的WGS數(shù)據(jù)發(fā)現(xiàn),在直腸中腺瘤和癌均是形態(tài)正常結(jié)直腸上皮普遍腫瘤突變改變的罕見結(jié)果。而全外顯子組測序(whole exome sequencing,WES)僅需對全基因組2%左右的區(qū)域進(jìn)行測序即可得到超過95%的已知功能區(qū)域信息(外顯子區(qū)域和周邊區(qū)域)。腫瘤研究一般需較高的測序深度,因此WES在價格和有效性方面均能滿足腫瘤基因組學(xué)研究需要[6-7]。以往有研究報道,應(yīng)用WES技術(shù)有助于鑒定白血病、骨髓瘤等腫瘤中的部分驅(qū)動突變[8-10]。
目前,有許多研究人員與機(jī)構(gòu)在編輯收錄各種癌癥的體細(xì)胞突變綜合列表,這對更好地了解腫瘤機(jī)制有重要的指引作用。如國際性研究計劃TCGA和ICGC開展了大量腫瘤相關(guān)突變的研究與總結(jié),其中TCGA已經(jīng)完成了33種腫瘤共10 879例樣本的基因組測序[11],ICGC完成了12979個腫瘤基因組的測序工作[12]。研究者對多種腫瘤的基因組變異進(jìn)行描述,為后續(xù)腫瘤預(yù)防及治療研究奠定了基礎(chǔ)。表1列舉了一些腫瘤相關(guān)的重要研究計劃與腫瘤突變相關(guān)數(shù)據(jù)庫。
藥物基因組學(xué)是研究基因序列多態(tài)性與藥物效應(yīng)多樣性的關(guān)系,即基因本身及其突變體與藥物效應(yīng)的相互關(guān)系,包括研究影響藥物反應(yīng)個體差異的基因特性,闡明基因多態(tài)性與藥物效應(yīng)及毒副反應(yīng)之間的關(guān)系,以及新藥研發(fā)和藥物指導(dǎo)。隨著測序技術(shù)的發(fā)展,藥物基因組學(xué)經(jīng)過長時間的發(fā)展積累,經(jīng)過整理數(shù)據(jù)及篩選驗證后形成了一批藥物基因組學(xué)相關(guān)數(shù)據(jù)庫,如 DrugBank、myCancerGenome、PharmGKB、GDSC等。其中DrugBank數(shù)據(jù)庫收錄了13 000多種藥物的名稱、研究情況、適應(yīng)證分類、藥理學(xué)研究、藥物相互作用、靶標(biāo)基因或蛋白質(zhì)。myCancerGenome(https://www.mycancergenome.org)為醫(yī)師、患者、研究者提供了一個精準(zhǔn)的腫瘤醫(yī)學(xué)知識庫,并定時更新腫瘤形成和發(fā)展的關(guān)鍵突變信息以及相關(guān)治療影響。PharmGKB(https://www.pharmgkb.org)是遺傳藥理學(xué)和藥物基因組學(xué)數(shù)據(jù)庫,收集了較完整的與藥物基因組相關(guān)的基因型和表型信息,并將這些信息系統(tǒng)地歸類。GDSC(www.cancerRxgene.org)是癌癥細(xì)胞藥物敏感性和藥物反應(yīng)分子標(biāo)志物信息的大規(guī)模公共數(shù)據(jù)庫,目前收錄了近75 000個實驗的藥物敏感性數(shù)據(jù),描述了近700種癌細(xì)胞系中100多種抗癌藥物的反應(yīng)。
轉(zhuǎn)錄組測序技術(shù)是腫瘤基因組學(xué)研究中的另一重要技術(shù)手段,可分析基因轉(zhuǎn)錄、轉(zhuǎn)錄后修飾及受表觀遺傳影響的產(chǎn)物,能深入研究腫瘤細(xì)胞轉(zhuǎn)錄層面的分子機(jī)制。對不同發(fā)展階段或不同狀態(tài)(如原發(fā)和轉(zhuǎn)移、敏感和耐藥)的腫瘤樣本進(jìn)行轉(zhuǎn)錄組研究,尋找差異表達(dá)基因,有助于理解腫瘤生物學(xué)特性。此外,轉(zhuǎn)錄組測序技術(shù)還可用于鑒定等位基因特異表達(dá),判斷突變對轉(zhuǎn)錄本造成的影響,以及檢測轉(zhuǎn)錄異構(gòu)體和融合轉(zhuǎn)錄本等[13-15]。
腫瘤的轉(zhuǎn)錄組研究中除蛋白編碼基因的mRNA外,還有非編碼轉(zhuǎn)錄產(chǎn)物的研究,包括microRNA(miRNA)和lncRNA、環(huán)狀RNA(circRNA)等。各類非編碼RNA在腫瘤的發(fā)生發(fā)展中亦扮演重要角色,其中miRNA屬于非編碼RNA家族成員,長度為17~25 bp,主要作用之一是抑制基因的轉(zhuǎn)錄后表達(dá)。LAW等[16]報道了一種新的PIWI-互作RNA(piRNA),即piRHep1,其參與了肝臟腫瘤發(fā)展。該研究還發(fā)現(xiàn)miR-1323在肝細(xì)胞癌中大量表達(dá),且miR-1323與肝硬化背景下產(chǎn)生的腫瘤具有獨特關(guān)聯(lián)。lncRNA為長鏈非編碼RNA,可通過其獨特的機(jī)制影響腫瘤發(fā)生發(fā)展。有研究發(fā)現(xiàn)長鏈非編碼RNA CTC-276P9.1可作為腫瘤抑制因子,亦可作為食管鱗狀細(xì)胞癌新的預(yù)后預(yù)測因子及治療靶點[17]。circRNA是一類內(nèi)源性主要由反向剪接形成的、沒有5'端帽子和3'端多聚腺苷酸尾巴的環(huán)狀閉合結(jié)構(gòu)。最初認(rèn)為circRNA是基因剪切的副產(chǎn)物,并無顯著功能。XIA等[18]利用SBC-ceRNA陣列在腫瘤中發(fā)現(xiàn)了1 021個差異表達(dá)的circRNA,并通過qRT-PCR分析證實了 circ_0057558、circ_0062019和SLC19A1在細(xì)胞株和腫瘤組織中表達(dá)。WILBERT等[19]研究亦證明了差異表達(dá)的circ_0062019、circ_0057558和circ_0062019的宿主基因SLC19A1可作為前列腺癌潛在的新型生物標(biāo)志物。
表1 與腫瘤相關(guān)的部分重要研究計劃及突變數(shù)據(jù)庫
癌癥發(fā)展過程中的表觀遺傳學(xué)改變與異?;虮磉_(dá)有關(guān)[20]。表觀遺傳的控制通過多個不同過程介導(dǎo),包括DNA修飾(甲基化或乙?;?、組蛋白修飾和核小體重塑,在不同類型癌癥中常見這三類表觀遺傳修飾物變異。通過二代測序技術(shù)可定位這些變異,進(jìn)而了解遺傳和表觀遺傳變化的關(guān)系,為癌癥治療提供新的思路。在腦膠質(zhì)瘤、急性骨髓性白血病和軟骨瘤中常發(fā)生NADP+依賴的異檸檬酸脫氫酶IDH1和IDH2的單等位點基因點突變。有研究[21]表明IDH1R132H等位基因的雜合表達(dá)可誘導(dǎo)這些腫瘤特有的以DNA甲基化為特征的全基因組改變,說明IDH1R132H/WT突變體是癌細(xì)胞表觀遺傳不穩(wěn)定的因素。有研究利用單細(xì)胞分辨率、多組學(xué)技術(shù)深入解析了人類結(jié)直腸癌在發(fā)生和轉(zhuǎn)移過程中DNA甲基化異常及基因表達(dá)改變的特點及相互關(guān)系[22]。甲基化技術(shù)亦應(yīng)用在神經(jīng)系統(tǒng)腫瘤研究中[23]。而最近有學(xué)者進(jìn)一步改進(jìn)了甲基化技術(shù)[24]。
染色體重排需要DNA雙鏈斷裂形成和連接,這些事件的發(fā)生會破壞基因組完整性,在白血病、淋巴瘤和肉瘤常見。此外,特定基因間反復(fù)的基因融合在不同個體中均可觀察到,說明這些基因在細(xì)胞周期中的某個階段其物理位置非常接近。隨著三維基因組技術(shù)的發(fā)展,染色質(zhì)在細(xì)胞核內(nèi)的三維構(gòu)象與腫瘤關(guān)系的研究不斷深入。目前已實現(xiàn)了針對乳腺癌、前列腺癌、神經(jīng)膠質(zhì)瘤和多發(fā)性骨髓瘤的三維基因組研究,發(fā)現(xiàn)在癌細(xì)胞中不同結(jié)構(gòu)尺度的三維基因組均會發(fā)生改變[25]。乳腺癌和前列腺癌的研究給“三維基因組在癌癥中發(fā)生改變”這一假說提供了證據(jù),但以上研究均采用正常細(xì)胞系和癌細(xì)胞系,未能證明癌癥與三維基因組改變存在因果關(guān)系。目前三維基因組研究方法主要包括ChIP-Seq、染色質(zhì)構(gòu)象捕獲實驗和ChIA-PET。一些研究將3C與CRISPR/Cas9技術(shù)結(jié)合,提供了三維基因組紊亂可能導(dǎo)致癌癥形成的實驗證據(jù)[25-30]。三維基因組Hi-C技術(shù)是基于將線性距離遠(yuǎn)、空間結(jié)構(gòu)近的DNA片段進(jìn)行交聯(lián),并將交聯(lián)的DNA片段富集,然后進(jìn)行高通量測序,并分析測序數(shù)據(jù)以揭示染色質(zhì)的遠(yuǎn)程相互作用,從而推導(dǎo)基因組的三維空間結(jié)構(gòu)與可能的基因之間的調(diào)控關(guān)系。Hi-C技術(shù)在腫瘤中應(yīng)用廣泛,許多分析及可視化的工具亦已開發(fā),有助于解釋Hi-C數(shù)據(jù)和分析腫瘤的三維基因組特征。一項研究[31]將Hi-C技術(shù)、WGS和Bionano光學(xué)圖譜技術(shù)與一種基于Hi-C數(shù)據(jù)的新算法結(jié)合,開發(fā)了一種染色體結(jié)構(gòu)變異(structuralvariationofchromosome,SV)綜合檢測方法,可用于癌癥基因組SV的系統(tǒng)分析,能夠全面了解癌癥基因組變化。該研究還發(fā)現(xiàn)了癌癥中潛在的非編碼SV,確定了此前癌癥基因組研究可能被忽略的不同SV模式,有助于發(fā)現(xiàn)癌細(xì)胞中新的SV信息,為深入了解癌癥發(fā)生提供新思路。
單細(xì)胞生物學(xué)是近年研究的熱點之一,利用單細(xì)胞測序技術(shù)可精細(xì)區(qū)分不同細(xì)胞類型,使在單細(xì)胞水平進(jìn)行分子機(jī)制研究成為可能。目前,單細(xì)胞測序技術(shù)在腫瘤領(lǐng)域的應(yīng)用主要包括單細(xì)胞基因組測序、單細(xì)胞轉(zhuǎn)錄組測序和單細(xì)胞表觀遺傳測序,從不同角度揭示了腫瘤微環(huán)境中不同細(xì)胞的特性。有研究[32]利用單細(xì)胞測序技術(shù)從8例乳腺癌患者的腫瘤樣本及其配對的正常血液、乳腺和淋巴結(jié)樣本中獲得多個免疫細(xì)胞,開展單細(xì)胞RNA測序?qū)嶒灒浑S后利用SEQC流程和“Biscuit”計算方法,對這些組織中的免疫細(xì)胞進(jìn)行聚類和鑒定。也有研究利用最新的單細(xì)胞測序技術(shù)解析結(jié)直腸癌的突變過程[33]。
單細(xì)胞基因組測序主要用于鑒定單核苷酸變異、CNV和SV。常用的技術(shù)是單細(xì)胞轉(zhuǎn)錄組測序,主要對單細(xì)胞中mRNA進(jìn)行基因表達(dá)定量、功能富集、代謝通路分析。分子表觀遺傳測序主要是研究DNA的表觀遺傳修飾,如甲基化、羥基化以及組蛋白修飾等。目前最常用的是單細(xì)胞甲基化測序(single cell methylation sequencing,scM-seq)。scM-seq主要有 3種方法:單細(xì)胞限制性代表區(qū)域甲基化測序(methylation sequencing of single cell restricted representation regions,scRRBS-seq)、單細(xì)胞亞硫酸氫鹽測序(single-cell bisulfite sequencing,scBS-seq)和單細(xì)胞全基因組甲基化測序技術(shù) (single-cell whole genome bisulfite sequencing,scWGBS-seq)。其中scBS-seq覆蓋的GpG位點最多,約為370萬個?;诙嘟M學(xué)研究需要,可同時進(jìn)行單細(xì)胞基因組和轉(zhuǎn)錄組測序,方法亦主要有3種:⑴scGT-seq(single-cell genome and transcriptome codetection and sequencing)采用微流體的方式將兩者分離進(jìn)行測序;⑵G&T-seq(genome and transcriptome sequencing),采用物理方法將兩者分離測序;⑶DR-seq(gDNA-mRNA sequencing)。有研究通過單細(xì)胞測序技術(shù)發(fā)現(xiàn)膠質(zhì)母細(xì)胞瘤的4種亞型間可以隨意切換,導(dǎo)致藥物難以殺死癌細(xì)胞,而這一發(fā)現(xiàn)有助于開發(fā)更好的治療方法[34]。ZHANG 等[35]結(jié)合 10×Genomics和 SMART-seq2單細(xì)胞RNA測序技術(shù),系統(tǒng)性刻畫了肝癌患者多個組織的免疫細(xì)胞,分析了免疫細(xì)胞動態(tài)遷移和狀態(tài)轉(zhuǎn)化的特征,描繪了腫瘤浸潤免疫細(xì)胞跨組織的動態(tài)過程,發(fā)現(xiàn)腫瘤中的巨噬細(xì)胞為腹水中髓系細(xì)胞的主要來源,為藥物治療的潛在靶點。
二代測序技術(shù)的快速發(fā)展為腫瘤組學(xué)研究提供了新的視角,但具有短讀長(150~300 bp)特性,因此限制了其在結(jié)構(gòu)變異檢測、重復(fù)區(qū)域及新轉(zhuǎn)錄本預(yù)測、可變剪切研究等方面中的應(yīng)用。近年來,以Pacific Biosciences(Pacbio)和 Oxford Nanopore Technology(ONT)為代表的三代測序技術(shù)具有長讀長(測序序列最長可達(dá)2 M)優(yōu)勢,有助于解決以上問題,在腫瘤研究中有獨特的優(yōu)勢。化療耐藥性是腫瘤治療難以攻克的難題。近年來,越來越多的研究表明一些可變剪切事件和轉(zhuǎn)錄本功能可影響癌癥的發(fā)生、發(fā)展、轉(zhuǎn)移以及耐藥性。有學(xué)者利用Pacbio測序結(jié)果探討野生型和紫杉醇耐藥型三陰性乳腺癌細(xì)胞發(fā)生的可變剪切事件,以及耐藥性發(fā)展過程中新出現(xiàn)的亞型,發(fā)現(xiàn)PB.4024.2可作為三陰性乳腺癌潛在的耐藥靶點,為研究乳腺癌耐藥性提供了新思路[36]。除了可變剪切與新轉(zhuǎn)錄本外,三代測序技術(shù)在癌癥領(lǐng)域中的應(yīng)用還包括發(fā)現(xiàn)融合基因、癌癥驅(qū)動基因的結(jié)構(gòu)變異等,為研究癌癥的致病機(jī)制、耐藥性和治療方法等提供有效手段。
腫瘤標(biāo)志物是細(xì)胞在特定疾病狀態(tài)下的分子信號,是腫瘤檢測、診斷、治療和預(yù)后判斷的重要工具。蛋白質(zhì)組學(xué)研究的快速發(fā)展給腫瘤標(biāo)志物研究注入了新的活力。目前利用蛋白質(zhì)組學(xué)技術(shù)已在肺癌、胃癌、結(jié)直腸癌、膀胱癌等多種腫瘤組織中找到有差異表達(dá)的蛋白質(zhì),這些蛋白質(zhì)有望成為有效的腫瘤標(biāo)志物[37]。GENTRIC 等[38]應(yīng)用蛋白質(zhì)組學(xué)技術(shù)及代謝組學(xué)技術(shù),首次證明了高級別漿液性卵巢癌(HGSOC)存在代謝異質(zhì)性,且能夠以此進(jìn)行分型,通過后續(xù)代謝流分析、分子生物學(xué)等實驗,解析了High-OXPHOS HGSOC增強(qiáng)化療敏感性的作用機(jī)制。同時在上述研究基礎(chǔ)上,通過與臨床相關(guān)數(shù)據(jù)的聯(lián)合分析,進(jìn)一步尋找到了與特定腫瘤亞型預(yù)后相關(guān)的診斷指標(biāo)。如在分泌蛋白質(zhì)組學(xué)研究中發(fā)現(xiàn)了食管癌和肝癌的早期診斷標(biāo)志物[39-40],還有研究發(fā)現(xiàn)Flower蛋白表達(dá)可抑制腫瘤生長和轉(zhuǎn)移,提高化療敏感性[41]。
細(xì)胞內(nèi)許多生命活動發(fā)生在代謝物層面,代謝物更多地反映了細(xì)胞所處的環(huán)境,如細(xì)胞是否健康、藥物是否起效、環(huán)境污染物是否正在傷害細(xì)胞等。目前,雖然代謝組學(xué)還處于初生階段,但已成為研究熱點,且研究正向?qū)嵱眯苑较虬l(fā)展。代謝組學(xué)定量方法精確度的提高和研究深入,以及各種組學(xué)數(shù)據(jù)的成功對接,使研究者可獲得腫瘤基因轉(zhuǎn)錄、蛋白以及代謝水平的全景信息,實現(xiàn)從更高層面理解生物系統(tǒng)的功能。包括質(zhì)譜在內(nèi)的多技術(shù)聯(lián)合應(yīng)用,為代謝組學(xué)的發(fā)展提供了更加廣闊的空間。有研究通過對138例腎透明細(xì)胞癌患者的癌組織與正常組織進(jìn)行代謝組學(xué)分析,并與TCGA數(shù)據(jù)庫中的轉(zhuǎn)錄組數(shù)據(jù)以及臨床信息進(jìn)行聯(lián)合分析,并在代謝層面上進(jìn)行分子分型,從而更好地了解腎透明細(xì)胞癌[42]。
驅(qū)動基因的鑒定及相應(yīng)靶向治療的應(yīng)用在腫瘤防治中發(fā)揮重要作用,探索預(yù)測性和預(yù)后判斷生物標(biāo)志物以深入了解腫瘤的發(fā)生發(fā)展機(jī)制,進(jìn)一步制定個體化治療方法,篩選獲益人群,對實現(xiàn)腫瘤精準(zhǔn)治療尤為重要。隨著多組學(xué)技術(shù)的不斷進(jìn)步,圍繞腫瘤研究產(chǎn)生的數(shù)據(jù)量將越來越多,依托大數(shù)據(jù)挖掘,理解將更全面、更深入。然而,腫瘤組學(xué)研究產(chǎn)生的數(shù)據(jù)量不斷加大、計算量的密集度不斷增高亦給研究中數(shù)據(jù)挖掘及解析工作帶來了挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)需不斷更新,算法策略需不斷優(yōu)化,與相關(guān)領(lǐng)域的交叉應(yīng)用亦需深度加強(qiáng),而人工智能技術(shù)的應(yīng)用[43-45]為人類探索癌癥的本質(zhì)開辟了新的途徑??梢?,通過對腫瘤組進(jìn)行多組學(xué)分析,不斷結(jié)合單細(xì)胞技術(shù)、人工智能技術(shù)等,從而識別腫瘤驅(qū)動基因,制定個性化的診療方案,對了解腫瘤及精準(zhǔn)醫(yī)療發(fā)展具有重大意義。