馬 婷 黃 海 郝 沛
(1上海大學生命科學學院發(fā)育神經(jīng)生物學實驗室 上海 200444; 2中國科學院上海巴斯德研究所病原大數(shù)據(jù)實驗室 上海 200031)
肝細胞癌(hepatocellular carcinoma,HCC)是原發(fā)性肝癌中最主要的組織學亞型[1]。纖維板層肝細胞癌(fibrolamellar-HCC,FL-HCC)是HCC的一種特殊類型,常見于青年群體,通常不伴隨肝硬化和乙型肝炎病毒(hepatitis B virus,HBV)感染[2-3]。已知HBV感染后會增加HCC的發(fā)病率[4]。
RNA編輯是指通過轉(zhuǎn)錄后修飾引起轉(zhuǎn)錄RNA序列改變,致使RNA攜帶信息改變的生物學現(xiàn)象[5]。脊椎動物中最常見的RNA編輯類型是腺嘌呤(adenine,A)轉(zhuǎn)變?yōu)榇吸S嘌呤(inosine,I),即A-to-I RNA編輯。A-to-I RNA編輯發(fā)生在具有雙鏈特征的RNA區(qū)域。底物RNA在腺苷酸脫氨酶(adenosine deaminases acting on RNA,ADAR)催化下將A水解脫氨基轉(zhuǎn)化為I,后續(xù)翻譯過程中被識別為鳥嘌呤(guanine,G)[6]。在病毒感染期間,不同的病毒與宿主組合后,ADAR可能發(fā)揮促病毒或抗病毒作用[7-8]。目前對HCC患者RNA編輯的研究主要集中在癌組織和正常組織間的編輯活性變化[9-10],而HBV感染對HCC患者A-to-I RNA編輯事件的影響尚無研究報道。
我們從數(shù)據(jù)庫下載了HBV陰性和陽性患者的轉(zhuǎn)錄組數(shù)據(jù)[11-12],采用SPRINT軟件[13]鑒定A-to-I RNA編輯事件,比較正常組織和癌組織中HBV陰性、HBV陽性樣本組的ADAR1表達值及共有RNA編輯位點(RNA editing site,RES)的編輯水平差異情況。本研究首次分析了HBV感染的HCC患者A-to-I RNA編輯的變化情況,對深入研究HBV感染對HCC發(fā)生發(fā)展的分子作用機制有一定的意義。
材料轉(zhuǎn)錄組數(shù)據(jù)來自美國國家生物技術(shù)信息中心(National Center of B-iotechnology Information,NCBI)的GEO數(shù)據(jù)庫,數(shù)據(jù)集編碼為GSE63018和GSE77509。為區(qū)分兩套數(shù)據(jù),分別用FL-HCC和HCC來表示。FL-HCC數(shù)據(jù)集為2*50的雙端非特異性測序數(shù)據(jù),測序數(shù)據(jù)來自FL-HCC患者,由于該類HCC的特殊性,8位患者均為HBV陰性。HCC數(shù)據(jù)集則為2*100的雙端非特異性測序數(shù)據(jù),包含19位HBV陽性患者和1位HBV陰性患者。每位患者均有配對的正常和癌癥肝組織的測序數(shù)據(jù)。
A-to-I RESs的鑒定和注釋采用SPRINT 0.7.16軟件鑒定RNA編輯事件。將匹配到參考基因組的讀段(reads)和未匹配、處理后二次匹配的讀段分為兩條檢測途徑進行位點尋找,因此該法能找出數(shù)目更多的位點用于后續(xù)分析。在SPRINT中使用Burrows-Wheeler algorithm (BWA)算法[14]進行比對。人類參考基因組和基因組注釋信息版本為hg19。采用Annovar軟件對得到的位點進行注釋[15]。
基因差異分析使用Trim_galore v0.4.3(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)去除測序質(zhì)量低于20的讀段,得到清潔數(shù)據(jù)。采用“-fastqc”參數(shù)對清潔數(shù)據(jù)進行測序質(zhì)量評估。采用Hisat2 v2.0.5[16]比對到人類參考基因組得到SAM文件。用Samtools v1.5[17]的“samtools view”和“samtools sort”命令將SAM文件轉(zhuǎn)化為BAM文件并進行排序。使用Picard v1.127軟件(https://broadinstitute.github.io/picard/)去除樣本制備過程中產(chǎn)生的PCR重復序列。HTSeq-0.6.1[18]用于計算基因比對到每個基因的讀段數(shù)。使用轉(zhuǎn)錄組表達定量值CPM(counts per million)來實現(xiàn)基因表達值的標準化,即原始讀段數(shù)÷總讀段數(shù)*1 000 000。
標準化編輯水平計算編輯水平定義為每個發(fā)生A-to-I RNA編輯的讀段數(shù)與比對到該位點的所有讀段數(shù)的比值。為更好比較不同患者的編輯水平變化,我們選出正常組織和癌組織共有的RES。將共有RES最高的值作為標準,其他RES與之相除,得到標準化編輯水平[19]。
GO富集分析使用R包clusterProfiler軟件[20]對每個患者正常組織和癌癥肝組織的RES所在基因分別進行GO富集分析。找出在HBV陰性和HBV陽性樣本組中均出現(xiàn)的GO富集通路,其中校正后P<0.05的通路為顯著富集通路。
圖形展示和統(tǒng)計學方法使用R開源包ggplot2和GraphPad prism8.0.1繪制圖片。本研究在R環(huán)境下進行統(tǒng)計學分析,相關(guān)性檢驗使用Kruskal-Wallis檢驗,P值閾值設(shè)置為0.1。
兩套數(shù)據(jù)集A-to-I RESs概況我們檢測了FL-HCC和HCC數(shù)據(jù)集中56個樣本的RNA編輯事件,分別找出299 528和122 265 509個RES(表1)。為驗證RES的可靠性,將每個樣本的檢測位點與目前主要的RES數(shù)據(jù)庫DARNED(http://darned.ucc.ie/)、RADAR(http://rnaedit.com/)、REDIportal(http://srv00.recas.ba.infn.it/py_script/REDIdb/)以及3個數(shù)據(jù)庫的并集進行比較(表1)。結(jié)果發(fā)現(xiàn),FL-HCC數(shù)據(jù)集與數(shù)據(jù)庫的平均交集為76.04%,而HCC數(shù)據(jù)集與數(shù)據(jù)庫的平均交集僅為52.47%。這是由于數(shù)據(jù)庫中的位點主要是匹配到參考基因組的讀段所找出的RES,而SPRINT還包含未匹配到基因組而進行二次匹配的讀段所找出的RESs。所以兩套數(shù)據(jù)集與數(shù)據(jù)庫的交集并不高,這說明相對于以往的RES鑒定方法[21-22],本研究可檢測出更多的RES來進行后續(xù)分析。
為進一步驗證檢測位點的準確性,我們分析了兩套數(shù)據(jù)集RES的位點分類特征(圖1)。將RES分為Alu區(qū)、重復非Alu (repetitive non Alu,REP-NON-Alu)區(qū)和非重復(non repetitive,NON-REP)區(qū),FL-HCC和HCC數(shù)據(jù)集分別有超過72%和82%的位點位于Alu區(qū),兩套數(shù)據(jù)集RES的分布特征具有一致性。這說明由于Alu區(qū)的序列具有相似特征,其在基因和基因間易形成雙鏈RNA,是ADAR酶的理想底物。因此,大部分位點發(fā)生在基因組的Alu區(qū)域,該現(xiàn)象與已有研究結(jié)果一致[23]。大部分位點分布在內(nèi)含子和基因間區(qū)域,其次是3’-UTR和非編碼RNA(non coding RNA,ncRNA)區(qū)域,外顯子和5’-UTR區(qū)域分布最少。這些分布特性都表明我們所鑒定出的位點具有可信度。
FL-HCC:RNA-seq data collected from GSE63018;HCC:RNA-seq data collected from GSE77509.SPRINT:Number of RESs identified by SPRINT.
ADAR酶表達水平的變化HCC組織中ADAR1表達量升高與RNA編輯水平上調(diào)有明顯相關(guān)性[9],但HBV感染后HCC樣本ADAR1的表達變化與RNA編輯水平之間的關(guān)系尚不清楚。我們將兩套數(shù)據(jù)集的樣本按照不同組織來源和HBV感染情況,分為HBV陰性正常組織(HBV-N)、HBV陰性癌組織(HBV-T)、HBV陽性正常組織(HBV+N)和HBV陽性癌組織(HBV+T)等4個樣本群體。考慮到兩套數(shù)據(jù)集的批次效應,我們使用標準化的基因表達值來觀察在不同組織和HBV感染情況下ADAR1的表達變化。在比較HBV-N和HBV+N、HBV-T和HBV+T群體后,我們發(fā)現(xiàn)在正常和癌組織中HBV感染均引起ADAR1的表達上調(diào)。在HBV陰性群體中,ADAR1在正常組織和癌組織之間無明顯差異。在HBV陽性群體中,RNA編輯酶的整體活性更高,且癌組織的ADAR1表達水平相對于正常組織有明顯上升(圖2A)。這都說明HBV感染促進ADAR1表達,該現(xiàn)象在癌組織中更顯著。此外,我們還觀察到不同樣本群體中ADAR2和ADAR1的表達趨勢并不一致(圖2B)。在HBV陰性群體中ADAR2在癌組織中的表達水平相對于正常組織更高,而HBV陽性群體中則相反。在不同組織中,HBV感染后ADAR2的表達水平更低??傮w上,ADAR2的表達值明顯低于ADAR1的表達值,這表明在催化編輯反應中ADAR1發(fā)揮主要作用,ADAR2的作用有待進一步分析研究。
Distribution (A) and genomic distribution (B) of RESs in FL-HCC data set;distribution (C) and genomic distribution (D) of RESs in HCC data set.
圖1 FL-HCC和HCC數(shù)據(jù)集中A-to-I RESs分布情況
Fig 1 The distribution of A-to-I RESs in FL-HCC and HCC data sets
HBV-N:HBV negative and normal tissue;HBV-T:HBV negative and tumor tissue;HBV+N:HBV positive and normal tissue;HBV+T:HBV positive and tumor tissue.CPM:Count-per-million.
圖2 不同HBV感染狀態(tài)下正常組織和癌組織中ADAR1(A)和ADAR2(B)的表達水平
Fig 2 The expression levels of ADAR1 (A) and ADAR2 (B) in normal and tumor tissues in response to HBV infection
A-to-I RESs編輯水平的變化由于ADAR1在催化A-to-I RNA編輯反應中起主要作用,進一步分析ADAR1的上調(diào)是否導致編輯水平的顯著變化。我們?nèi)〕雒课换颊哒=M織和癌組織共有的A-to-I RESs后,計算出這些位點的標準化編輯水平。根據(jù)共有RESs的編輯水平計算出均值,比較不同感染狀況和不同組織來源樣本群體的RESs編輯水平變化(圖3)。不同感染狀態(tài)下樣本的編輯水平在0.30~0.45,多集中在低于0.5的區(qū)域中。雖然HBV感染時ADAR1在兩類組織中均顯著上升,但僅在癌組織中發(fā)現(xiàn)編輯水平上升(P<0.1)。在HBV陽性群體中,癌組織的編輯水平相對于正常組織有所提升(P<0.1),但在HBV陰性群體中則沒有類似現(xiàn)象。這說明ADAR1表達變化對癌癥樣本和HBV感染樣本的RESs作用更為明顯。
A-to-I RESs所在基因的GO富集情況分析RESs所在基因的GO富集情況,找出在HBV陰性和陽性樣本中均出現(xiàn)的GO富集通路(表2):HBV陰性樣本的編輯基因顯著富集在細胞氨基酸代謝過程通路(P<0.05);HBV陽性樣本的編輯基因則富集在蛋白質(zhì)絲氨酸/蘇氨酸激酶活性、轉(zhuǎn)錄后調(diào)控基因表達及去磷酸化相關(guān)信號通路(P<0.05)。這些通路與細胞增殖、基因調(diào)控過程相關(guān)。這說明HBV感染使細胞增殖并調(diào)控基因表達相關(guān)的編輯基因活性發(fā)生改變,這可能對HCC的發(fā)生造成影響。
HBV-N:HBV negative and normal tissue;HBV-T:HBV negative and tumor tissue;HBV+N:HBV positive and normal tissue;HBV+T:HBV positive and tumor tissue.
圖3 在不同HBV感染狀態(tài)下正常和癌癥組織中RESs的編輯水平變化
Fig 3 The editing level of RESs in normal and tumor tissuesin response to HBV infection
表2 不同HBV感染狀態(tài)下RESs所在基因的GO富集通路Tab 2 The GO enrichment pathway of genes with RESs in response to HBV infection
HBV-:HBV negative;HBV+:HBV positive.(1)AjustedP.
HCC是一種異質(zhì)性腫瘤,在遺傳信息和表觀遺傳層面表現(xiàn)出復雜多樣的變化。在癌組織中,異常的轉(zhuǎn)錄后修飾(如RNA編輯),可能導致腫瘤轉(zhuǎn)錄組的多樣性[23]。RNA編輯在病毒感染過程中同樣起著重要作用[7]。目前對HCC患者RNA編輯的研究多為癌組織相對于正常組織的RNA編輯事件變化,對HBV感染后患者RNA編輯的變化研究較少。
我們使用SPRINT軟件來檢測編輯位點,相對于以往的位點鑒定方法[21],該法能發(fā)現(xiàn)更多RES,有利于后續(xù)位點的統(tǒng)計分析。通過分析每位患者RES的數(shù)目和分布特征,發(fā)現(xiàn)兩套數(shù)據(jù)集的RES數(shù)目有明顯差異,數(shù)據(jù)測序深度大的樣本能檢測到更多的RES,這與數(shù)據(jù)本身測序深度和讀數(shù)長度有關(guān),因而從位點數(shù)量分析HBV感染對患者RNA編輯的影響并不合適。通過分析位點在基因組上的分布,發(fā)現(xiàn)不同數(shù)據(jù)集的樣本分布趨勢具有較強的一致性,RES大部分落在內(nèi)含子區(qū)域和基因間區(qū)域。這與以往研究結(jié)果一致[9]。不同HBV感染狀態(tài)下,正常組織和癌組織中ADAR1表達水平均顯著上升。HBV感染后,癌組織中ADAR1表達上調(diào),同時其共同RES的編輯水平也會隨之升高,而在未感染HBV群體中則沒有類似發(fā)現(xiàn)。這說明HBV感染極可能通過上調(diào)ADAR1表達,對編輯基因的表達活性產(chǎn)生影響。HBV感染樣本的編輯基因顯著富集在基因調(diào)控和細胞增殖相關(guān)通路,說明編輯基因的活性改變可能影響了細胞的正常生長,進而影響HCC的發(fā)生。這提示在治療HBV感染患者的過程中抑制ADAR1的表達對預防HCC的發(fā)生可能會起到作用。
本研究收集的數(shù)據(jù)來自FL-HCC和HCC兩套公開數(shù)據(jù)集??紤]到不同數(shù)據(jù)集對后續(xù)分析的影響,分別對兩套數(shù)據(jù)集在基因組上的分布進行了分析,發(fā)現(xiàn)它們在基因功能區(qū)的分布是一致的。這在一定程度上表明樣本組織來源的不同對RESs分布影響不大??紤]到批次影響,我們在分析基因表達水平時采用標準化基因表達值CPM來衡量ADAR表達水平。在分析RESs的編輯水平時,將正常組織作為背景,選取腫瘤和正常組織共有的RESs來分析,這在一定程度上能夠去除由于樣本的組織類型差異所造成的編輯水平變化。由于患者年齡、性別和病毒感染等因素也可能對分析造成一定的影響,因此我們在選取數(shù)據(jù)時盡量選擇范圍一致的樣本。由于公共數(shù)據(jù)庫的數(shù)據(jù)有限且未感染HBV的臨床樣本不易獲取,本研究收集到的不同HBV感染情況的患者樣本數(shù)目并不一致。更多未感染HBV的HCC患者樣本有助于校正分析過程中的偏差。
總之,本研究利用轉(zhuǎn)錄組數(shù)據(jù)描述HBV陽性和陰性HCC樣本A-to-I RNA編輯事件的區(qū)別,發(fā)現(xiàn)HBV感染上調(diào)ADAR1的表達,從而改變宿主編輯事件的活性,這對HCC的發(fā)生發(fā)展可能有促進作用,也為進一步探索宿主RNA編輯對HBV感染的響應機制提供了線索。