陳永孜
(天津醫(yī)科大學腫瘤醫(yī)院腫瘤細胞生物學實驗室,天津市腫瘤防治重點實驗室,國家腫瘤臨床醫(yī)學研究中心,天津市惡性腫瘤臨床醫(yī)學研究中心,天津 300060)
眾所周知,癌癥是當前世界上引發(fā)人類死亡的主要疾病之一。它是一種非常復雜的由多基因協(xié)同作用而引發(fā)的疾病,可以發(fā)生在人體內(nèi)一個系統(tǒng)的多個器官,也可以發(fā)生在一個器官的多個系統(tǒng),也有可能是多個系統(tǒng)多個器官。由于嚴重程度、持續(xù)時間、發(fā)病位置、對藥物的敏感性和耐受程度、細胞分化和發(fā)生以及對發(fā)病機理了解的不同,該病的診斷、預后和治療效果都不盡如意。根據(jù)傳統(tǒng)的指標如腫瘤大小、臨床分期、病理分級、淋巴結(jié)轉(zhuǎn)移數(shù)目等對癌患者進行診斷,即便是處于同一分期的患者經(jīng)過正規(guī)治療的預后也會有很大的不同。因此,從基因水平出發(fā),尋找與癌癥密切相關的差異表達基因或者基因突變對于癌癥的精準化治療便顯得尤為重要。
基因芯片和測序技術(shù)是基因水平研究的兩大主要手段。基因芯片基于已知序列信息進行探針設計,通過堿基互補雜交來識別基因并鑒定其表達,檢測技術(shù)和分析方法都相對成熟。高通量測序從sanger測序到現(xiàn)在新興的納米孔測序技術(shù)已經(jīng)有三十多年歷史,目前已經(jīng)被成功應用在約2 500多種疾病的檢測上。其中靶向基因測序雖然成本較低,但是可以覆蓋幾乎所有的癌基因而被許多實驗室當作常規(guī)檢測手段來使用。近年來,雖然高通量測序的勢頭越來越高,但是基因芯片以其經(jīng)濟快速準確等特點在臨床應用上也同樣備受歡迎。由于基因芯片不能發(fā)現(xiàn)新的序列突變以及轉(zhuǎn)錄本等缺陷,而高通量測序則可以對其進行補充。因此,二者在臨床研究中都有不可替代的研究作用。比如,基因表達譜芯片和RNAseq都是對RNA樣本進行制備和分析,他們二者的優(yōu)缺點見表1,需要根據(jù)研究目的和經(jīng)費預算而進行選擇。接下來,我們將分別介紹基因表達譜芯片以及核酸測序技術(shù)在癌癥基因組學中的應用,加強我們對癌癥發(fā)病機制的理解從而加速癌癥的個體化治療進程。
表1 基因表達譜芯片與RNAseq的比較Table 1 Comparison of gene microarray and RNAseq
基因芯片技術(shù)是將許多特定的寡核苷酸片段或基因片段有規(guī)律地排列固定于支持物(如膜、硅片、陶瓷片及玻片)上,然后通過類似于Northern,Southern的方法與待測的標記樣品按堿基配對原理進行雜交,再通過檢測系統(tǒng)對其進行掃描,并用相應軟件對信號進行比較和檢測,得到所需的大量信息,進行基因的高通量、大規(guī)模、平行化、集約化的信息處理和功能研究。基因芯片技術(shù)已成為功能基因組學研究中一項非常重要和關鍵的實用技術(shù),可自動、快速地檢測出上萬個基因的表達情況,從而對遺傳信息進行快速準確的分析,可用于遺傳病相關基因的定位、腫瘤診斷、耐藥菌株和藥敏檢測等。
目前的芯片主要來自于三個生產(chǎn)廠家: Affymetrix GeneChips, Illumina BeadArrays, and Agilent 2-channel arrays[1]。這些芯片基本上可以滿足當下人類組基因表達的所有需求,如果需要檢測特殊的基因表達,還可以通過定制基因芯片來實現(xiàn)。
目前,常用的基因表達譜芯片數(shù)據(jù)庫有GEO(https://www.ncbi.nlm.nih.gov/geo/)和Arrayexpress(https://www.ebi.ac.uk/arrayexpress/)。得到數(shù)據(jù)以后,首先,需要對芯片的原始數(shù)據(jù)進行質(zhì)控分析,可以直接通過ArrayQualityMetricx等軟件包。通常芯片自身的質(zhì)控合格需要達到以下幾點:背景信號在150以下,Corner角落信號和Central-信號一般在15 000~20 000以下,看家基因GAPDH和βactin的3’/5’值小于3。雜交對照包括bioB、bioC、bioD和cre應該被檢測到。ploy-A對照包括dap,lys,phe以及thr應被檢測到,同時信號逐級升高。為了使得數(shù)據(jù)之間可進行比較,還需采用R語言中的affy、affycoretools以及simpleaffy等軟件包,繪制芯片的箱線圖、直方圖、RNA降解圖和主成份圖。由于芯片的類型和物種的不同,這些質(zhì)控圖都沒有固定的形狀,一般來講,與其他樣本偏差較大的樣本可能會存在一些問題,需要排除掉。剩下的芯片可以用rma進行標準化處理。對于有多個探針的基因,計算平均值作為該基因的表達值。而對于miRNA一般使用miRNA_QC_tool來對其進行質(zhì)控分析。包括箱線圖、直方圖、相關系數(shù)、質(zhì)控探針的表達值以及雜交對照bioB、bioC、bioD和cre的信號圖。隨后使用rma方法獲得芯片的標準化數(shù)據(jù)。limma統(tǒng)計方法通常用于獲取差異表達基因,隨后可以進一步將這些基因進行富集分析或者建立模型等[2]。
1.2.1 MammaPrint的應用
MammaPrint是由70個基因組成的檢測芯片,已經(jīng)被多個研究證實其對早期乳腺癌患者預后的預測作用[3-4]。該檢測芯片是從5 000個基因中選取出來用于預測淋巴結(jié)陰性乳腺癌患者的無疾病生存和整體生存。而且該芯片檢測也被證實對于淋巴結(jié)陽性的腫瘤也有顯著的預測效果[5]。因其成本不高而且可以改善患者的生存質(zhì)量,通過該方法預測出來的低風險組,其5年生存率可以高達90%,從而使患者避免不必要的化療過程。
1.2.2 在癌癥藥物的研究和模型開發(fā)上的應用
Chen等人[2]在近年開發(fā)的ER陰性單藥物模型就是基于DNA芯片數(shù)據(jù)。作者從DNA芯片數(shù)據(jù)中分別針對紫杉醇,5-氟尿嘧啶,阿霉素以及環(huán)磷酰胺開發(fā)了單藥物模型。作者從細胞系芯片數(shù)據(jù)出發(fā),采用pearson、spearman、t-test、ancova以及rank based ancova多種統(tǒng)計學方法提取與四種藥物的GI50有關的基因,隨后使用COXEN的方法[6]從細胞系中篩選出可以用到人類組織中的基因標志物。最后用獨立樣本集來驗證模型對ER陰性乳腺癌患者在各種化療組合方案的反應和生存,取得了不錯的預測精度。He等人[7]通過對大腸癌細胞系的基因芯片進行分析,發(fā)現(xiàn)Wnt通路與5-FU的抗性有關,同時他們還發(fā)現(xiàn)在5-FU抗性細胞系中,CHK1通路被Wnt通路抑制,揭示了這兩條通路之間的相互作用。此外,還可以將非編碼RNA制作成芯片進行研究,比如Tian等人[8]在肺癌對紫杉醇抗藥性的研究中就使用了這一技術(shù)。
1.2.3 在癌癥的免疫治療研究中的應用
比如,評估ZAP-70在慢性淋巴白血病中白血病細胞中的表達[5]。研究表明,ZAP-70如果在T細胞中的表達水平高,那么就可以將患者分配到正確的IgVH突變亞型,從而決定患者接受何種治療方案[9]。除此之外,還可以通過基因芯片研究不同時間段的T細胞基因表達,以及T輔助細胞亞群在免疫應答過程中的分化機制。
1.2.4 在癌癥分型上的應用
由于癌癥是一個多基因主導的復雜性疾病,所以如果能夠?qū)⑵渚_劃分成不同的亞型,那么將有助于對癌癥的診斷和治療。基因芯片在這一方面有著突出的貢獻,miRNA芯片、mRNA芯片以及IncRNA都曾用于此研究[10-12]。
目前常用的高通量測序技術(shù)主要是第二代測序,文庫構(gòu)建根據(jù)所測序列分為DNA類文庫以及RNA類文庫。整體來講,構(gòu)建文庫主要分為以下四步[13]:(1)將目標序列打斷,如果是RNA序列則需要現(xiàn)反轉(zhuǎn)錄為DNA在進行打碎,一般常用的是物理的方法(超聲波)和酶反應的方法,此外還有化學的方法,從而獲得實驗所需長度的片段;(2)將末端補平,并在3’端連接堿基A,隨后將可以與測序平臺或者磁珠相結(jié)合的接頭加上;(3)文庫擴增,對于Illumina是通過生成DNA簇,而半導體測序則是通過microemulsion PCR;(4)轉(zhuǎn)到測序芯片或者磁珠上,根據(jù)長度進行片段的選擇和純化,從而完成文庫構(gòu)建(見圖1)。
圖1 文庫構(gòu)建基本流程圖Fig.1 Flow chart of library preparation
對于文庫的構(gòu)建來講,從DNA樣本出發(fā),針對全基因組、外顯子基因組以及chip-seq和PCR擴增子的測序文庫構(gòu)建基本都遵循一樣的流程,最終的目的都是盡可能的提高文庫的復雜度。目前,也有很多成熟的商業(yè)化的試劑盒,用戶可以根據(jù)需要來進行選擇。
二代測序常用的數(shù)據(jù)庫有TCGA(https://cancergenome.nih.gov/)以及NCBI中的SRA數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/sra/)。二代測序數(shù)據(jù)比芯片數(shù)據(jù)分析起來稍微復雜一些,基于RNA[14]和DNA序列,其分析流程也有所不同。但是第一步都需要對數(shù)據(jù)進行質(zhì)控,一般使用fastqc對數(shù)據(jù)的質(zhì)量進行基本的評估,然后使用cutadptor等軟件將接頭以及低質(zhì)量數(shù)據(jù)去除。RNA序列分析根據(jù)是否拼接選取相應的軟件進行比對,隨后根據(jù)是否需要參考基因組,選用不同的軟件進行序列的組裝,在根據(jù)基因水平還是isoform水平,選取對應的軟件進行定量標準化分析和差異表法分析(見圖2)。其中每一步驟都列出很多種不同的軟件,這些軟件基于不同的算法和語言開發(fā),精度略有不同,比如BitSeq在差異表法分析上要優(yōu)于Cuffdiff[15]。但是大多數(shù)算法的精度都差不多,用戶可以根據(jù)所使用的平臺和語言對其進行選擇。而對于DNA序列,其序列比對軟件主要有Bowtie和BWA,其中Bowtie速度很快,主要用于局部序列比對;BWA經(jīng)常用于全基因組和外顯子組的重序列比對。值得注意的是,STAR是專門針對RNA序列比對所涉及的比對軟件,不被用在DNA序列比對上,其速度是目前比對軟件中最快的,但是需要至少30G的內(nèi)存來運行。DNA比對完以后用GATK toolbox來對數(shù)據(jù)進行處理,進而檢測突變??梢允褂肎ATK中自帶的突變檢測程序,也可以使用Mutect2以及Strelka2等軟件(見圖3)。
圖2 RNA序列分析流程及所用工具Fig.2 Flow chart of RNAseq analysis and related tools
圖3 DNA序列分析流程及所用工具Fig.3 Flow chart of DNAseq analysis and related tools
測序包括mRNA、小RNA以及長鏈非編碼RNA。一般mRNA經(jīng)常用于比較不同組織之間的差異表達,從而發(fā)現(xiàn)與癌癥相關的變異,比如基因融合[16]以及可變剪切等[17]。小RNA測序則通過分析表達差異,預測其靶基因,篩選用于疾病診斷的分子標記。長鏈非編碼RNA一般與樣品中的mRNA共表達分析,挖掘其功能和作用機制,從而發(fā)現(xiàn)與癌癥之間的關系。比如Gradia等人從長鏈非編碼RNA和mRNA的數(shù)據(jù)出發(fā),分析TUG1的表達與乳腺癌不同亞型之間的關系[18]。
DNA測序一般用于研究癌癥基因組的單核苷酸變異、插入以及缺失與癌癥的相關性。比如, TP53, PTEN, RUNX1, CCND3,BRCA1、EGFR以及PTPN22等已知的癌基因的變異在肺癌[19]、卵巢癌[20]以及乳腺癌[21]中的作用。此外,還可以通過DNA測序?qū)γ庖呓M學進行研究,比如檢測T細胞受體庫的多樣性,從而了解機體免疫應答狀態(tài)。
綜上可見,芯片技術(shù)和高通量測序技術(shù)都已經(jīng)被廣泛的應用在癌癥的研究當中,每種方法都有自己的優(yōu)點和不足。總體來講,基因芯片技術(shù)無論是在制備還是分析上都很成熟,而測序技術(shù)仍處于飛速發(fā)展階段。比如最近的納米孔測序,雖然讀長很長,但是準確度還不盡人意。希望不久的將來,可以出現(xiàn)高通量、高精度、低成本的測序技術(shù),那么將極大的加快對癌癥的研究。